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GENES IMPLIQUES DANS LES MALADIES INFLAMMATOffiES 
DE L^INTESTIN ET LETJR UTILISATION 

La presente invention concerne des g^nes impliques dans les 
5 maladies inflammatoires et/ou immunes et certains cancers, en particulier les 
maladies inflammatoires cryptog6n6tiques de Tintestin, ainsi que les proteines 
codecs par ces genes. Des m6thodes de diagnostics de maladies inflammatoires sont 
6galement des objets de la presente invention. 

Les maladies inflammatoires cryptogenetiques de I'intestin (MICI) sont des 

10 maladies caracterisees par une inflammation du tube digestif dont la cause est 
inconnue. Selon la localisation et les caracteristiques de I'inflammation on distingue 
deux entites nosologiques differentes: la rectocolite hemorragique (RCH) et la 
maladie de Crohn (MC). La RCH a ete decrite par S Wilkes en 1865 tandis que le 
premier cas d'ileite rdgionale a ete rapportee par Crohn en 1932. En r^alite, il est 

1 5 possible que ces deux maladies soient beaucoup plus anciennes. 

Les MICI sont des maladies chroniques qui evoluent tout au long de la vie et 
qui touchent environ 1 a 2 personnes sur 1000 habitants dans les pays occidentaux, 
ce qui represente entre 60.000 et 100.000 malades en France. II s'agit de maladies 
apparaissant chez le sujet jeune (le pic d'incidence est dans la troisieme decennie), 

20 evoluant par poussees entrecoupees de remissions, avec des complications 
frequentes telles que la denutrition, le retard de croissance chez Tenfant, la 
demineralisation osseuse et a terme la degenerescence maligne vers le cancer du 
colon. II n'existe pas de traitement specifique. Les therapeutiques habituelles font 
appel aux anti-inflammatoires, aux imraunosuppresseurs et a la chirurgie. Tons ces 

25 moyens therapeutiques sont eux-memes source d'une morbidite iatrogene 
importante. Pour toutes ces raisons les MICI apparaissent comme un important 
probleme de sante publique. 

L'etiologie des MICI est actuellement inconnue. Des facteurs 
d'environnement sont impliques dans la survenue de la maladie comme en 

30 temoignent I'augmentation seculaire d'incidence de la maladie et la concordance 
incomplete chez les jumeaux monozygotes. Les seuls facteurs de risque 
environnementaux actuellement reconnus sont 1) le tabac dont le role est nefaste 
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dans la MC et ben6fique dans la RCH et 2) rappendicectonaie qui a un role 
protecteur pour la RCH, 

Une predisposition g^n^tique est depuis longtemps suspect^e devant 
Texistence d'agr6gations ethmques et familiales de ces maladies. En effet, les MICI 
5 sont plus frequentes dans la population caucasienne et en particulier la population 
juive dTBurope centrale. Les formes familiales repr6sentent de 6 a 20% des cas de 
MICI, Elles sont particuli^rement frequentes lorsque le debut de la maladie est 
precoce. Cependant, ce sont les etudes chez les jumeaux qui ont permis de 
confirmer le caractere genetique de ces maladies. En effet, le taux de concordance 

1 0 entre jumeaux pour ces maladies est plus important chez les jumeaux monozygotes 
que chez les jumeaux dizygotes plaidant fortement pour une composante hereditaire 
aux MICI, en particulier a la MC. Selon toute vraisemblance, les MICI sont des 
maladies genetiques complexes faisant intervenir plusieurs genes differents, en 
interaction entre eux et avec des facteurs d'environnement. Les MICI peuvent done 

1 5 etre classees dans le cadre des maladies multifactorielles. 

Deux grandes strategies ont ete developpees afm de mettre en evidence les 
genes de susceptibility aux MICI. La premiere repose sur Tanalyse de genes 
candidats pour des raisons physiopathologiques. Ainsi de nombreux genes ont ete 
proposes comme potentiellement importants pour les MICI. II s'agit souvent de 

20 genes ayant un role dans Tinflammation et la reponse immune. On peut citer les 
genes HLA, TAP, TNF, MICA, le recepteur T du lymphocyte, ICAMl, 
rinterleukine 1, CCR5, etc. D'autres genes participent a des fonctions diverses tels 
que GAI2, la motiline, MRAMP, HMLHl, etc. En realite, aucun des diflf6rents 
gdnes candidats etudies n'a actuellement fait la preuve definitive de son rdle dans la 

25 survenue des MCI. 

Le recent developpement de cartes du genome humain utilisant des 
marqueurs genetiques hautement polymorphes a permis aux g6neticiens de 
d6veIopper une approche non ciblee sur Tensemble du genome. Cette demarche, 
appel6e aussi genetique inverse ou clonage positionnel, ne fait aucune hypolhdse sur 

30 les genes impliques dans la maladie et tente de d6couvrir ceux-ci i travers un 
criblage systematique du genome. La m^thode la plus utilisee pour les maladies 
g6n6tiques complexes repose sur I'fetude de Tidentit^ par la descendance des 
malades dbne meme famille. Cette valeur est calculee pour un grand nombre (300- 
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400) de marqueurs de polymorphisme r6partis reguliferement (tous les lOcM) sur le 
genome. En cas d'exces d*identite entre malades, le(s) marqueur(s) test6(s) 
indique(nt) una region supposee contenir un gene de susceptibilite a la maladie. 
Dans le cas des maladies genetiques complexes, le modele sous-jacent a la 
5 pr6disposition genetique (nombre de gtoes et importance respective de chacun 
d'entre eux) 6tant inconnu, les methodes statistiques a utiliser devront etre adaptees. 

La presente invention concerne la mise en evidence de la sequence 
nucleique de genes impliques dans les MICI, et d'autres maladies inflammatoires, 
ainsi que Tutilisation de ces sequences nucleiques. 

10 Dans le cadre de la presente invention, des travaux preliminaires des 

inventeurs ont deja permis de localiser un gene de susceptibilite a la MC. En effet, 
les inventeurs (Hugot et al., 1996) ont montre qu'un gene de susceptibilite a la MC 
etait localise dans la region pericentromerique du chromosome 16 (figure 1). II 
s'agissait du premier gene de susceptibilite a une maladie genetique complexe 

15 localise par clonage positionnel et satisfaisant aux criteres stricts proposes dans la 
litterature (Lander et Kruglyak, 1995). Ce gene a et6 nomm6 BBDl (pour 
Inflammatory Bowel Disease 1). Depuis, d'autres localisations ont 6t6 proposees par 
d'autres auteurs en particulier sur les chromosomes 12, 1, 3, 6 et 7 (Satsangi et al., 
1996 ; Cho et al., 1998). Bien que localises, aucun de ces genes de susceptibilite 

20 aux MICI n'a actuellement pu Stre identifie. 

Certains auteurs n'ont pu repliquer cette localisation (Rioux et al., 1998). 
Ceci n'est cependant pas surprenant dans le cas de maladies genetiques complexes 
ou une het^rogeneite genetique est probable. 

II est interessant de noter que selon la mSme approche de clonage 

25 positioimel, des localisations ont aussi ete proposees sur le chromosome 16 pour 
plusieurs maladies immunes et inflammatoires telles que la spondylarthrite 
ankylosante, le syndrome de Blau, le psoriasis, etc. (Becker et al., 1998 ; Tromp et 
aL, 1996). Toutes ces maladies pourraient alors partager un m6me gene (ou un 
m6me groupe de genes) localise sur le chromosome 16. 

30 Le maximum des tests de liaison genetique est situ6 pratiquement toujours a 

la meme position, au niveau de D16S409 ou D16S411 separes seulement de 2cM. 
Ce r6sultat est en opposition avec la taille importante (habituellement sup6rieure a 
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20cM) de I'intervalle de confiance attribuable a la localisation g6netique selon une 
demarche utilisant des analyses de liaison non parametriques. 

La comparaison des tests statistiques utilises dans les travaux des inventeurs 
montre que les tests bases sur Tidentite par descendance complete (Tz2) sont 
5 meilleurs que les tests bas6 sur la moyenne de Tidentit^ par descendance (Tz) (fig. 
1), Une telle difference peut 6tre expliquee par un effet recessif de DBDl . 

Plusieurs genes connus dans la region pericentromerique du chromosome 
16, tels que le recepteur a Tinterleukine 4, CD19, CD43, CDl 1, apparaissent comme 
de bons candidats potentiels pour la MC. Des resultats preliminaires ne plaident 
1 0 cependant pas en faveur de Timplication de ces genes dans la MC. 

En particulier, la presente invention foumit la sequence non seulement du 
gene BDl, mais egalement la sequence partielle d'un autre gene, appele IBDlprox 
en raison de sa localisation a proximite d'IBD, et mis en evidence comme rapport6 
dans les exemples ci-apres. Ces genes dont la sequence d'ADNc correspond 
1 5 respectivement a SEQ ID 1 et SEQ ID N° 4 sont done potentiellement impliques 
dans de nombreuses maladies inflammatoires et/ou immunes dnsi que dans des 
cancers. 

La sequence peptidique exprimee par les genes BBDl et IBDlprox est 
representee par SEQ ID N° 2 et SEQ ID N° 5 respectivement; la sequence 
20 genomique de ces genes est representee par SEQ ID N° 3 et SEQ ID N° 6 
respectivement. 

Ainsi, la presente invention a pour objet un acide nucleique purifie ou isole, 
caracteris6 en ce qu'il comprend une sequence nucl6ique choisie dans le groupe de 
sequences suivantes : 
25 a) SEQIDNM,SEQIDN^3,SEQIDNMetSEQK)N^6; 

b) la sequence d*un fragment d'au moins 15 nucleotides consecutifs 
d'une s6quence choisie parmi SEQ ID N° 1. SEQ ID N° 3, SEQ 
IDNMouSEQ IDN°6; 

c) une sequence nucleique presentant un pourcentage d'identite 
30 d'au moins 80 %, apres alignement optimal avec une sequence 

d6finie en a) ou b) ; 

d) une sequence nucleique s'hybridant dans des conditions de forte 
stringence avec une sequence nucleique definie en a) ou b) ; 
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e) la sequence complementaire ou la sequence de TARN 
correspondant a une sequence telle que definie en a), b), c) ou d). 
La sequence d'acides nucleiques selon T invention definie en c) presente un 
pourcentage d'identite d'au moins 80 % apres alignement optimal avec une 
5 sequence telle que definie en a) ou b) ci-dessus, de preference 90 %, de fa9on la 
plus pr6feree 98 %. 

Par acide nucleique, sequence nucleique ou d'acide nucleique, 
polynucleotide, oligonucleotide, sequence de polynucleotide, sequence 
nucleotidique, termes qui seront employes indifferemment dans la presente 
10 description, on entend designer un enchainement precis de nucleotides, modifies ou 
non, permettant de dtfmir un fragment ou une region d'un acide nucleique, 
comportant ou non des nucleotides non naturels, et pouvant correspondre aussi bien 
a un ADN double brin, un ADN simple brin que des produits de transcription 
desdits ADNs. Ainsi, les sequences nucleiques selon Tinvention englobent 
1 5 egalement les PNA (Peptid Nucleic Acid), ou analogues. 

II doit etre compris que la presente invention ne conceme pas les sequences 
nucleotidiques dans leur environnement chromosomique nature!, c'est-a-dire a Tetat 
naturel. II s*agit de sequences qui ont ete isolees et/ou purifiees, c'est-a-dire qu*elles 
ont 6te prelevees directement ou indirectement, par exemple par copie, leur 
20 environnement ayant et6 au moins partiellement modifie. On entend ainsi 6galement 
d&igner les acides nucleiques obtenus par synthese chimique. 

Par « pourcentage d'identite » entre deux sequences d'acides nucleiques ou 
d'acides amines au sens de la presente invention, on entend designer un 
pourcentage de nucleotides ou de residus d'acides amines identiques entre les deux 
25 sequences a comparer, obtenu apres le meilleur alignement, ce pourcentage ^tant 
purement statistique et les differences entre les deux sequences 6tant r6parties au 
hasard et sur toute leur longueur. On entend designer par "meilleur alignement" ou 
"alignement optimal", Talignement pour lequel le pourcentage d'identite determine 
comme ci-apres est le plus elev6. Les comparaisons de sequences entre deux 
30 sequences d'acides nucleiques ou d'acides amines sont traditionnellement realis6es 
en comparant ces sequences apr^s les avoir alignees de maniere optimale, ladite 
comparaison etant realisee par segment ou par « fenetre de comparaison » pour 
identifier et comparer les regions locales de similarite de sequence. L'alignement 
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optimal des sequences pour la comparaison peut etre realise, outre manual lement, 
au moyen de ralgorithme d'homologie locale de Smith et Waterman (1981), au 
moyen de ralgorithme d'homologie locale de Neddleman et Wunsch (1970), au 
moyen de la methode de recherche de similarite de Pearson et Lipman (1988), au 

5 moyen de logiciels informatiques utilisant ces algorithmes (GAP, BESTFIT, 
BLAST P, BLAST N, FASTA et TFASTA dans le Wisconsin Genetics Software 
Package, Genetics Computer Group, 575 Science Dr., Madison, WI). Afm d'obtenir 
Talignement optimal, on utilise de preference le programme BLAST, avec la 
matrice BLOSUM 62. On peut ^galement utiliser les matrices PAM ou PAM250. 

10 Le pourcentage d'identite entre deux sequences d'acides nucleiques ou 

d'acides amines est determine en comparant ces deux sequences alignees de 
maniere optimale, la sequence d'acides nucleiques ou d'acides amines a comparer 
pouvant comprendre des additions ou des deletions par rapport a la sequence de 
reference pour un alignement optimal entre ces deux sequences. Le pourcentage 

15 d'identite est calcule en determinant le nombre de positions identiques pour 
lesquelles le nucleotide ou le residu d'acide amine est identique entre les deux 
sequences, en divisant ce nombre de positions identiques par le nombre total de 
positions comparees et en multipliant le resultat obtenu par 100 pour obtenir le 
pourcentage d'identite entre ces deux sequences. 

20 Par sequences nucleiques presentant un pourcentage d'identite d'au 

moins 80 %, de preference 90 %, de fagon plus preferee 98 %, apres alignement 
optimal avec une sequence de reference, on entend designer les sequences 
nucleiques presentant, par rapport a la sequence nucleique de reference, certaines 
modifications comme en parti culier une deletion, une troncation, un allongement, 

25 une fusion chimerique, et/ou une substitution, notamment ponctuelle, et dont la 
sequence nucleique presente au moins 80 %, de preference 90 %, de fa9on plus 
preferee 98 %, d'identite apres alignement optimal avec la sequence nucleique de 
reference. II s'agit de preference de sequences dont les sequences complementaires 
sont susceptibles de s'hybrider specifiquement avec les sequences SEQ ID 1 ou 

30 SEQ ID N** 4 de Tinvention. De preference, les conditions d'hybridation specifiques 
ou de forte stringence seront telles qu'elles assurent au moins 80 %, de preference 
90 %, de fafon plus preferee 98 % d'identite apres alignement optimal entre Tune 
des deux sequences et la sequence complementaire de Tautre. 
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Une hybridation dans des conditions de forte stringence signifie que les 
conditions de temperature et de force ionique sont choisies de telle maniere qu'elles 
permettent le maintien de 1' hybridation entre deux fragments d'ADN 
compl^mentaires. A titre illustratif, des conditions de forte stringence de Tetape 
5 d' hybridation aux fins de definir les fragments polynucl6otidiques d^crits ci-dessus, 
sont avantageusement les suivantes. 

L'hybridation ADN-ADN ou ADN-ARN est realisee en deux etapes : (1) 
prehybridation a 42^C pendant 3 heures en tampon phosphate (20 mM, pH 7,5) 
contenant 5 x SSC (1 x SSC correspond a une solution 0,15 M NaCl + 0,015 M 

10 citrate de sodium), 50 % de formamide, 7 % de sodium dodecyl sulfate (SDS), 10 x 
Denhardt's, 5 % de dextran sulfate et 1 % d'ADN de sperme de saumon ; (2) 
hybridation proprement dite pendant 20 heures a une temperature dependant de la 
taille de la sonde (i.e. : 42^C, pour une sonde de taille > 100 nucleotides) suivie de 2 
lavages de 20 minutes a 20°C en 2 x SSC + 2 % SDS, 1 lavage de 20 minutes a 

15 20X en 0,1 X SSC + 0,1 % SDS. Le dernier lavage est pratique en 0,1 x SSC + 0,1 
% SDS pendant 30 minutes a 60°C pour une sonde de taille > 100 nucleotides. Les 
conditions d' hybridation de forte stringence decrhes ci-dessus pour un 
polynucleotide de taille defmie, peuvent etre adaptees par Thomme du metier pour 
des oligonucleotides de taille plus grande ou plus petite, selon I'enseignement de 

20 Sambrooketal., 1989. 

Parmi les sequences nucleiques presentant un pourcentage d'identite d*au 
moins 80 %, de preference 90 %, de fa9on plus preferee 98 %, apres alignement 
optimal avec la sequence selon Tinvention, on prefere egalement les sequences 
nucl6iques variantes de SEQ ID N*" 1, ou de SEQ ID N° 4, ou de leurs fragments, 

25 c'est-4-dire Tensemble des sequences nucleiques correspondant a des variants 
all61iques, c'est-a-dire des variations individuelles des sequences SEQ ID 1 ou 
SEQ ID N° 4. Ces sequences mutees naturelles correspondent a des 
polymorphismes presents chez les mammiferes, en particulier chez Tetre humain et, 
notamment, a des polymorphismes pouvant conduire a la survenue d'une 

30 pathologie. De preference, la presente invention concerne les sequences nucleiques 
variantes dans lesquelles les mutations conduisent a une modification de la 
sequence d'acides amines du polypeptide, ou de ses fragments, codes par la 
sequence normale de SEQ ID N'' 1 ou SEQ ID N° 4. 
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On entend egalement designer par sequence nucl^ique variante tout ARN ou 
ADNc resultant d*une mutation et/ou variation d\in site d'epissage de la sequence 
nucleique g^nomique dont T ADNc a pour sequence SEQ E) N** 1 ou SEQ ID N** 4. 

L'invention concerae de preference un acide nucl6ique purifie ou isole selon 
5 la presente invention, caracterise en ce qu'il comprend ou est constitue de Tune des 
sequences SEQ ID 1 ou SEQ ID N° 4, de leurs sequences compUmentaires ou 
des sequences de TARN correspondant a SEQ ID N*' 1 ou SEQ ID W 4. 

Les amorces ou sondes, caracterisees en ce qu'elles comprennent une 
sequence d'un acide nucleique selon T invention, font egalement partie de 
10 rinvention. 

Ainsi, la presente invention conceme egalement les amorces ou les sondes 
selon rinvention qui peuvent permettre en particulier de mettre en evidence ou de 
discriminer les sequences nucleiques variantes, ou d'identifier la sequence 
genomique des genes dont T ADNc est represente par SEQ ID N° 1 ou SEQ ID N° 
15 4, en utilisant notamment une methode d' amplification telle que la methode PGR, 
ouune methode apparentee. 

L'invention conceme egalement Tutilisation d*une sequence d'acide 
nucleique selon I'invention comme sonde ou amorce, pour la detection, 
r identification, le dosage ou ramplification de sequence d' acide nucleique. 
20 Selon 1' invention, les polynucleotides pouvant etre utilises comme sonde ou 

comme amorce dans des precedes de detection, d' identification, de dosage ou 
d'amplification de sequence nucleique, presentent une taille minimale de 15 bases, 
de preference de 20 bases, ou mieux de 25 a 30 bases. 

Les sondes et amorces selon I'invention peuvent Stre marquees directement 
25 ou indirectement par un compose radioactif ou non radioactif par des m6tbodes bien 
connues de rhomme du metier, afin d'obtenir un signal detectable et/ou 
quantifiable. 

Les sequences de polynucleotides selon I'invention non marquees peuvent 
Stre utilisees directement comme sonde ou amorce. 
30 Les sequences sont g^neralement marquees pour obtenir des sequences 

utilisables pour de nombreuses applications. Le marquage des amorces ou des 
sondes selon I'invention est realise par des Elements radioactifs ou par des 
molecules non radioactives. / 
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Panni les isotopes radioactifs utilises, on peut citer le ^^P, le le ^^S, le 
ou le ^^^L Les entites non radioactives sont selectionnees parmi les ligands tels la 
biotine, I'avidine, la streptavidine, la dioxygenine, les hapttoes, les colorants, les 
agents luminescents tels que les agents radioluminescents, ch6moluminescents, 
5 bioluminescents, fluorescents, phosphorescents. 

Les polynucleotides selon T invention peuvent ainsi etre utilises comme 
amorce et/ou sonde dans des procedes mettant en oeuvre notamment la technique de 
PGR (amplification en chaine par polymerase) (Rolfs et al., 1991). Cette technique 
necessite le choix de paires d'amorces oligonucleotidiques encadrant le fragment 
1 0 qui doit etre amplifie. On peut, par exemple, se referer a la technique decrite dans le 
brevet americain U.S. N° 4,683,202. Les fragments amplifies peuvent etre 
identifies, par exemple apres une electrophorese en gel d'agarose ou de 
polyacrylamide, ou apres une technique chromatographique comme la filtration sur 
gel ou la chromatographie echangeuse d'ions, puis sequences. La specificite de 
15 F amplification peut etre controlee en utilisant comme amorces les sequences 
nucleotidiques de polynucleotides de Tinvention et comme matrices, des plasmides 
contenant ces sequences ou encore les produits d' amplification derives. Les 
fragments nucleotidiques amplifies peuvent etre utilises comme reactifs dans des 
reactions d' hybridation afin de mettre en evidence la presence, dans un echantillon 
20 biologique, d'un acide nucleique cible de sequence compl6mentafre a celle desdits 
fragments nucleotidiques amplifies. 

L'invention vise egalement les acides nucleiques susceptibles d'etre obtenus 
par amplification a I'aide d'araorces selon Tinvention. 

D'autres techniques d'amplification de I'acide nucleique cible peuvent etre 
25 avantageusement employees comme alternative la PGR (PGR-like) a Taide de 
couple d' amorces de sequences nucleotidiques selon T invention. Par PGR-like on 
entend designer toutes les m6thodes mettant en oeuvre des reproductions directes ou 
indirectes des sequences d' acides nucleiques, ou bien dans lesquelles les systemes 
de marquage ont et6 amplifies, ces techniques sont bien entendu connues. En 
30 general il s'agit de Tamplification de TADN par une polymerase ; lorsque 
rechantillon d'origine est un AKN il convient prealablement d'effectuer une 
transcription reverse. II existe actuellement de tres nombreux procedes permettant 
cette amplification, comme par exemple la technique SDA (Strand Displacement 
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Amplification) ou technique d'amplification a deplacement de brin (Walker et al., 
1992), la technique TAS (Transcription-based Amplification System) dterite par 
Kwoh et al. (1989), la technique 3SR (Self-Sustained Sequence Replication) decrite 
par Guatelli et al. (1990), la technique NASBA (Nucleic Acid Sequence Based 

6 Amplification) decrite par Kievitis et al. (1991), la technique TMA (Transcription 
Mediated Amplification), la technique LCR (Ligase Chain Reaction) decrite par 
Landegren et al. (1988), la technique de RCR (Repair Chain Reaction) decrite par 
Segev (1992), la technique CPR (Cycling Probe Reaction) decrite par Duck et al. 
'(1990), la technique d' amplification a la Q-beta-replicase decrite par Miele et al. 

1 0 (1983). Certaines de ces techniques ont depuis ete perfectionnees. 

Dans le cas oii le polynucleotide cible a detecter est un ARNm, on utilise 
avantageusement, prealablement a la mise en oeuvre d'une reaction d'amplification 
a Taide des amorces selon Tinvention ou a la mise en oeuvre d'un procede de 
detection a I'aide des sondes de Tinvention, une enzyme de type transcriptase 

15 inverse afin d'obtenir un ADNc a partir de I'ARNm contenu dans Techantillon 
biologique. L'ADNc obtenu servira alors de cible pour les amorces ou les sondes 
mises en oeuvre dans le procede d'ampiification ou de detection selon Tinvention. 

La technique d' hybridation de sondes pent etre realisee de manieres diverses 
(Matthews et al., 1988), La methode la plus generale consiste a immobiliser I'acide 

20 nucleique extrait des cellules de difFerents tissus ou de cellules en culture sur un 
support (tels que la nitrocellulose, le nylon, le polystyrene) et a incuber, dans des 
conditions bien definies, I'acide nucleique cible immobilise avec la sonde. Apres 
I'hybridation, I'exces de sonde est elimine et les molecules hybrides formees sont 
detectees par la methode appropriee (mesure de la radioactivit6, de la fluorescence 

25 ou de Tactivite enzymatique liee a la sonde). 

Selon un autre mode de mise en oeuvre des sondes nucleiques selon 
I'invention, ces dernieres peuvent etre utilisees comme sondes de capture. Dans ce 
cas, une sonde, dite « sonde de capture », est immobilisee sur un support et sert a 
capturer par hybridation specifique I'acide nucleique cible obtenu a partir de 

30 Techantillon biologique 4 tester et I'acide nucleique cible est ensuite detecte grace a 
une seconde sonde, dite « sonde de detection », marquee par un element facilement 
detectable. 
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Pamu les fragments d'acides nucleiques interessants, il faut ainsi citer en 
particalier les oligonucleotides anti-sens, c'est-a-dire dont la structure assure, par 
hybridation avec la sequence cible, une inhibition de Texpression du produit 
correspondant. II faut egalement citer les oligonucleotides sens qui, par interaction 
5 avec des proteines impliquees dans la regulation de T expression du produit 
correspondant, induiront soit une inhibition, soit une activation de cette expression. 

Dans les deux cas (sens et anti-sens), les oligonucleotides de Tinvention 
peuvent etre utilises in vitro et in vivo. 

La presente invention conceme egalement un polypeptide isole caracteris6 
10 en ce qu'il comprend un polypeptide choisi parmi : 

a) un polypeptide de sequence SEQ ID 2 ou SEQ ID N° 5 ; 

b) un polypeptide variant d'un polypeptide de sequence definie en 

a); 

c) un polypeptide homologue a un polypeptide defini en a) ou b), 
15 comportant au moins 80 % d'identite avec ledit polypeptide de 

a); 

d) un fragment d'au moins 15 acides amines consecutifs d'un 
polypeptide defini en a) , b) ou c) ; 

e) un fragment biologiquement actif d'un polypeptide defini en a), 
20 b) ou c). 

Par « polypeptide », on entend, au sens de la presente invention, designer 
des proteines ou des peptides. 

Par « fragment biologiquement actif », on entend un fi-agment possedant la 
mSme activite biologique que le fi-agment peptidique dont il est deduit, de 

25 preference dans le meme ordre de grandeur (a un facteur 10 pres). Ainsi, les 
exemples montrent que la proteine IBDl (SEQ ID N'' 2) a un r61e potentiel dans les 
ph^nomenes d'apoptose. Un fi*agment biologiquement actif de la prot6ine IBDl 
consiste done en un polypeptide issu de SEQ ID N° 2 possedant egalement un r61e 
dans Tapoptose. Les exemples ci-apres proposent des fonctions biologiques pour les 

30 proteines IBDl et IBDlprox, en fonction des domaines peptidiques de ces proteines 
et permettent ainsi a I'homme du metier d'identifier les firagments biologiquement 
actifs. 
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De preference un polypeptide selon I'invention est un polypeptide constitue 
de la sequence SEQ ED 2 (correspondant a la proteine codee par le gene IBDl) 
ou de la sequence SEQ ID N"* 5 (correspondant a la proteine codee par IBDlprox) 
ou d*une sequence poss6dant au moins 80 % d'identite avec SEQ ID N*^ 2 ou SEQ 
5 ID N° 5 apres alignement optimal 

La sequence du polypeptide presente un pourcentage d'identite d'au moins 
80 % apres alignement optimal avec les sequences SEQ ID N** 2 ou SEQ ID W 5, 
de preference 90 %, de fa90n plus preferee 98 %. 

Par polypeptide dont la sequence d'acides amines presentant un pourcentage 

1 0 d'identite d'au moins 80 %, de preference 90 %, de fa^on plus preferee 98 %, apres 
alignement optimal avec une sequence de reference, on entend designer les 
polypeptides presentant certaines modifications par rapport au polypeptide de 
reference, comme en particulier une ou plusieurs deletions, troncations, un 
allongement, une fusion chimerique, et/ou une ou plusieurs substitutions. 

15 Parmi les polypeptides dont la sequence d'acides amines presentant un 

pourcentage d'identite d'au moins 80 %, de preference 90 %, de fafon plus preferee 
98 %, apres alignement optimal avec les sequences SEQ ID N° 2, SEQ ID N° 5 ou 
avec Tun de leurs fragments selon I'invention, on prefere les polypeptides variants 
codes par les sequences nucleiques variantes telles que precedemment definies, en 

20 particulier les polypeptides dont la sequence d'acides amines presente au moins une 
mutation correspondant notamment a une troncation, deletion, substitution et/ou 
addition d'au moins un residu d'acide amine par rapport aux sequences SEQ ID N° 
2, SEQ ID N° 5 ou avec Vun de leurs fragments, de maniere plus preferee les 
polypeptides variants presentant une mutation liee a une pathologie. 

25 La pr6sente invention conceme egalement les vecteurs de clonage et/ou 

d'expression comprenant un acide nucleique ou codant pour un polypeptide selon 
Tinvention. Un tel vecteur peut egalement contenir les elements necessaires a 
I'expression et eventuellement a la secretion du polypeptide dans une cellule h6te. 
Une telle cellule h6te est Egalement un objet de Tinvention. 

30 Les vecteurs caractdrises en ce qu'ils comportent une sequence de 

promoteur et/ou de regulateur selon T invention, font 6galement partie de 
rinvention. 
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Lesdits vecteurs comportent de preference un promoteur, des signaux 
d'initiation et de terminaison de la traduction, ainsi que des regions appropriees de 
regulation de la transcription. lis doivent pouvoir etre maintenus de fa9on stable 
dans la cellule et peuvent eventuellement posseder des signaux particuliers 

5 specifiant la secretion de la proteine traduite. 

Ces differents signaux de controle sont choisis en fonction de Thote 
cellulaire utilise. A cet effet, les sequences d'acide nucleique selon rinvention 
peuvent etre ins6rees dans des vecteurs a replication autonome au sein de I'hote 
choisi, ou des vecteurs integratifs de Thote choisi. 

10 Parmi les systemes a replication autonome, on utilise de preference en 

fonction de la cellule hote, des systemes de type plasmidique ou viral, les vecteurs 
viraux pouvant notamment etre des adenovirus (Perricaudet et al., 1992), des 
retrovirus, des lentivirus, des poxvirus ou des virus herpetiques (Epstein et al., 
1992). L'homme du metier connait les technologies utilisables pour chacun de ces 

15 systemes, 

Lorsque Ton souhaite Fintegration de ia sequence dans les chromosomes de 
la cellule hote, on peut utiliser par exemple des systemes de type plasmidique ou 
viral ; de tels virus sont, par exemple, les retrovirus (Temin, 1986), ou les AAV 
(Carter, 1993). 

20 Parmi les vecteurs non viraux, on prefere les polynucleotides nus tels que 

TADN nu ou TARN nu selon la technique developpee par la societe VICAL, les 
chromosomes artificiels de bacterie (BAG, bacterial artificial chromosome), les 
chromosomes artificiels de levure (YAC, yeast artificial chromosome) pour 
Texpression dans la levure, les chromosomes artificiels de souris (MAC, mouse 

25 artificial chromosome) pour Texpression dans les cellules murines et de maniere 
preferee les chromosomes artificiels d'homme (HAC, human artificial 
chromosome) pour Texpression dans les cellules humaines. 

De tels vecteurs sont prepares selon les methodes couramment utilisees par 
rhomme du metier, et les clones en resultant peuvent etre introduits dans un hSte 

30 approprie par des methodes standard, telles que par exemple la lipofection, 
relectroporation, le choc thermique, la transformation apres permeabilisation 
chimique de la membrane, la fusion cellulaire. 
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LMnvention comprend en outre les cellules h6tes, notamment les cellules 
eucaryotes et procaryotes, transform^es par les vecteurs selon Tinvention ainsi que 
les animaux transg6niques, de pr6f6rence les mammiferes, except^ rHomme, 
comprenant une desdites cellules transformees selon Tinvention. Ces animaux 
5 peuvent §tre utilises en temps que modeles, pour I'etude de Tetiologie de maladies 
inflammatoires et/ou immunes, et en particulier des maladies inflammatoires du 
tube digestif, ou pour I'^tude de cancers. 

Parmi les cellules utilisables aux sens de la presente invention, on peut citer 
les cellules bacteriennes (Olins et Lee, 1993), mais aussi les cellules de levure 
10 (Buckholz, 1993), de meme que les cellules animales, en particulier les cultures de 
cellules de mammiferes (Edwards et Aruffo, 1993), et notamment les cellules 
d'ovaire de hamster chinois (CHO). On peut citer egalement les cellules d'insectes 
dans lesquelles on peut utiliser des procedes mettant par exemple en oeuvre des 
baculovirus (Luckow, 1993). Un bote cellulaire prefer^ pour Texpression des 
1 5 proteines de I'invention est constitue par les cellules COS. 

Parmi les mammiferes selon T invention, on prefere des animaux tels que les 
rongeurs, en particulier les souris, les rats ou les lapins, exprimant un polypeptide 
selon I'invention. 

Parmi les mammiferes selon T invention, on prefere egalement des animaux 
20 tels que les souris, les rats ou les lapins, caracterises en ce que le gene codant pour 

la proteine de sequence SEQ ID N"" 2 ou SEQ ID W 5, ou dont la sequence est 

codec par le gene homologue chez ces animaux, n'est pas fonctionnel, est invalid6 

ou presente au moins une mutation. 

Ces animaux transgeniques sont obtenus par exemple par recombinaison 
25 homologue sur cellules souches embryonnaires, transfert de ces cellules souches a 

des embryons, selection des chimte afFectees au niveau des ligntes 

reproductrices, et croissance desdites chimeres. 

Les animaux transgeniques selon I'invention peuvent ainsi surexprimer le 

gene codant pour la proteine selon Tinvention, ou leur gene homologue, ou 
30 exprimer ledit g6ne dans lequel est introduite une mutation. Ces animaux 

transgeniques, en particulier des souris, sont obtenus par exemple par transfection 

de copie de ce gene sous controle d'un promoteur fort de nature ubiquitaire, ou 

selectif d'un type de tissu, ou apres transcription virale. 
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Alternativement, les animaux transgeniques selon I'invention peuvent etre 
rendus deficients pour le gene codant pour Tun des polypeptides de sequences SEQ 
ID 2 ou SEQ YD N° 5, ou leurs genes homologues, par inactivation a Taide du 
systeme LOXP/CRE recombinase (Rohlmann et al., 1996) ou de tout autre systeme 
5 d'inactivation de 1' expression de ce gene. 

Les cellules et mammiferes selon I'invention sont utilisables dans une 
methode de production d'un polypeptide selon Pinvention, comme decrit ci- 
dessous, et peuvent egalement servir a titre de modele d*analyse. 

Les cellules ou mammiferes transformes tels que decrits precedemment 
10 peuvent aussi etre utilises a titre de modeles afin d'etudier les interactions entre les 
polypeptides selon I'invention, et les composes chimiques ou proteiques, impliques 
directement ou indirectement dans les activites des polypeptides selon Tinvention, 
ceci afm d'etudier les differents mecanismes et interactions mis en jeu. 

lis peuvent en particulier etre utilises pour la selection de produits 
15 interagissant avec les polypeptides selon I'invention, notamment la proteine de 
sequence SEQ ID N° 2 ou SEQ ID N° 5 ou leurs variants selon I'invention, a titre 
de cofacteur, ou d'inhibiteur, notamment competitif, ou encore ayant une activite 
agoniste ou antagoniste de Tactivite des polypeptides selon I'invention, De 
preference, on utilise lesdites cellules transformees ou animaux transgeniques a titre 
20 de modele notamment pour la selection de produits permettant de lutter contre les 
pathologies liees k une expression anormale de ce gene. 

L'invention concerne egalement I'utilisation d'une cellule, d*un mammifere 
ou d'un polypeptide selon Tinvention pour le criblage de composes chimiques ou 
biochimiques pouvant interagir directement ou indirectement avec les polypeptides 
25 selon I'invention, et/ou capable de moduler I'expression ou Tactivite de ces 
polypeptides. 

De la meme fafon, I'invention concerne aussi un precede de criblage de 
compos6s capables d'interagir in vitro ou in ynvo avec un acide nucl^ique selon 
i'invention, en utilisant un acide nucleique une cellule ou un mammifere selon 
30 I'invention, et en detectant la formation d'un complexe entre les composes 
candidats et I'acide nucleique selon I'invention. 

Les composes ainsi s61ectionnes sont egalement objets de I'invention. 
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L'invention concerne aussi Tutilisation d*une sequence d*acide nucl6ique 
selon r invention pour la synthese de polypeptides recombinants. 

La methode de production d'un polypeptide de Tinvention sous forme 
recombinante, elle-meme comprise dans la presente invention, se caracterise en ce 
5 que Ton cultive les cellules transformtes, notamment les cellules ou mammiferes de 
la presente invention, dans des conditions permettant T expression d'un polypeptide 
recombinant cod6 par une sequence d'acide nucleique selon l'invention, et que Ton 
recupere ledit polypeptide recombinant. 

Les polypeptides recombinants, caracterises en ce qu'ils sont susceptibles 
10 d'etre obtenus par ladite methode de production, font 6galement partie de 
rinvention. 

Les polypeptides recombinants obtenus comme indique ci-dessus, peuvent 
aussi bien se presenter sous forme glycosylee que non glycosylee et peuvent 
presenter ou non la structure tertiaire naturelle. 

15 Les sequences des polypeptides recombinants peuvent etre egalement 

modifiees afin d'ameliorer leur solubilite, en particulier dans les solvants aqueux. 

De telles modifications sont connues de Thomme du metier comme par 
exemple la deletion de domaines hydrophobes ou la substitution d'acides amines 
hydrophobes par des acides amines hydrophiles. 

20 Ces polypeptides peuvent etre produits a partir des sequences d'acide 

nucleique defmies ci-dessus, selon les techniques de production de polypeptides 
recombinants connues de Thomme du metier. Dans ce cas, la sequence d'acide 
nucleique utilisee est placee sous le controle de signaux permettant son expression 
dans un bote cellulaire. 

25 Un systeme efHcace de production d'un polypeptide recombinant n6cessite 

de disposer d'un vecteur et d'une cellule h6te selon Tinvention. 

Ces cellules peuVent etre obtenues par I'introduction dans des cellules h6tes 
d'une sequence nucleotidique inseree dans un vecteur tel que defini ci-dessus, puis 
la mise en culture desdites cellules dans des conditions permettant la replication 

30 et/ou I'expression de la sequence nucleotidique transfectee. 

Les precedes utilises pour la purification d'un polypeptide recombinant sont 
connus de Thomme du metier. Le polypeptide recombinant peut etre purif]6 a partir 
de lysats et extraits cellulaires, du sumageant du milieu de culture, par des 
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methodes utilisees individuellement ou en combinaison, telles que le 
fractionnement, les methodes de chrornatographie, les techniques d'imraunoafFmite 
a Taide d'anticorps monoclonaux ou polyclonaux sp6cifiques, etc. . . 

Les polypeptides selon la presente invention peuvent aussi etre obtenus par 
5 synthese chimique en utilisant Tune des nombreuses syntheses peptidiques connues, 
par exemple les techniques mettant en ceuvre des phases solides (voir notamment 
Stewart et al, 1984) ou des techniques utilisant des phases solides partielles, par 
condensation de fragments ou par une synthese en solution classique. 

Les polypeptides obtenus par synthese chimique et pouvant comporter des 
1 0 acides amines non naturels correspondants sont egalement compris dans Tinvention. 

Les anticorps mono- ou polyclonaux ou leurs fragments, anticorps 
chimeriques ou immunoconjugues, caracterises en ce qu'ils sont capables de 
reconnaitre specifiquement un polypeptide selon Tinvention, font partie de 
Tinvention. 

15 Des anticorps polyclonaux specifiques peuvent etre obtenus a partir d'un 

serum d'un animal immunise contre les polypeptides selon I'invention, notamment 
produit par recombinaison genetique ou par synthese peptidique, selon les modes 
operatoires usuels. 

On note notamment Tinteret d'anticorps reconnaissant de fa9on specifique 
20 certains polypeptides, variants, ou leurs fragments immunogenes, selon Tinvention. 

Les anticorps mono- ou polyclonaux ou leurs fragments, anticorps 
chimeriques ou immunoconjugues, caracterises en ce qu'ils sont capables de 
reconnaitre specifiquement les polypeptides de sequence SEQ ID 2 ou SEQ ID 
W 5 sont particulierement preferes. 
25 Les anticorps monoclonaux specifiques peuvent etre obtenus selon la 

methode classique de culture d'hybridomes decrite parKohler et Milstein (1975). 

Les anticorps selon Tinvention sont, par exemple, des anticorps 
chimeriques, des anticorps humanises, des fragments Fab ou F(ab')2. lis peuvent 
egalement se presenter sous forme d' immunoconjugues ou d'anticorps marques afin 
30 d'obtenir un signal detectable et/ou quantifiable. 

L' invention concerne egalement des methodes pour la detection et/ou la 
purification d'un polypeptide selon Finvention, caracteris6es en ce qu'elles mettent 
en oBuvre un anticorps selon Tinvention. 
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L'invention comprend en outre des polypeptides purifies, caract6rises en ce 
qu'ils sont obtenus par une methode selon Tinvention. 

Par ailleurs, outre leur utilisation pour la purification des polypeptides, les 
anticx)rps de l'invention, en particulier les anticorps monoclonaux, peuvent 
5 6galement etre utilises pour la detection de ces polypeptides dans un echantillon 
biologique. 

lis constituent ainsi un moyen d'analyse immunocytochimique ou immuno- 
histochimique de T expression des polypeptides selon l'invention, notamment les 
polypeptides de sequence SEQ ID N"* 2, SEQ ID N° 5 ou Tun de leurs variants, sur 
10 des coupes de tissus specifiques, par exemple par immunofluorescence, marquage a 
Tor, immuno-conjugues enzymatiques. 

lis peuvent permettre notamment de mettre en evidence une expression 
anormale de ces polypeptides dans les tissus ou prelevements biologiques. 

Plus generalement, les anticorps de l'invention peuvent etre 
15 avantageusement mis en oeuvre dans toute situation ou Texpression d'un 
polypeptide selon l'invention, normal ou mute, doit etre observee. 

Ainsi, un procede de detection d'un polypeptide selon l'invention dans un 
echantillon biologique, comprenant les etapes de mise en contact de Techantillon 
biologique avec un anticorps selon l'invention et de mise en evidence du complexe 
20 antigene-anticorps forme est egalement un objet de l'invention, ainsi qu'une trousse 
permettant de mettre en oeuvre un tel procede. Une telle trousse contient en 
particulier : 

a) un anticorps monoclonal ou polyclonal selon l'invention ; 

b) eventuellement des reactifs pour la constitution d'un milieu 
25 propice a la reaction immunologique ; 

c) les reactifs permettant la detection du complexe antigene- 
anticorps produit lors de la reaction immunologique. 

Les anticorps selon l'invention peuvent egalement etre utilises dans le 
traitement d'une maladie inflammatoire et/ou immune, ou d'un cancer, chez 
30 I'homme, lorsque Ton observe une expression anormale du gene BBDl ou du gene 
BDlprox. Une expression anormale signifie une surexpression ou T expression 
d'une proteine mutee. 
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Ces anticorps peuvent etre obtenus directement a partir de serum humain, ou 
a partir d'animaux immunises avec des polypeptides selon rinvention, puis 
« humanises », et peuvent etre utilises tels quels ou dans la preparation d'un 
medicament destin6 au traitement des maladies precitees. 
5 Font egalement partie de I'invention, les methodes de determination d'une 

variabilite allelique, d'une mutation, d'une deletion, d'une perte d'heterozygotie ou 
de toute anomalie g6n6tique du gene selon I'invention, caracterisees en ce qu^elles 
mettent en oeuvre une sequence d'acide nucleique, un polypeptide ou un anticorps 
selon I'invention. 

10 L'invention fournit en efFet la sequence des genes BDl et EBDlprox 

impliques dans des maladies inflammatoires et/ou immunes, et en particulier les 
MICI Un des enseignements de T invention est de preciser les mutations dans ces 
sequences nucleiques ou polypeptidiques, qui sont liees a un phenotype 
correspondant a une des ces maladies inflammatoires et/ou immunes. 

15 On peut detecter ces mutations directement par analyse de I'acide nucleique 

et des sequences selon invention (ADN genomique, AJRN, ou ADNc), mais 
egalement par Tintermediaire des polypeptides selon I'invention. En particulier, 
I'utilisation d'un anticorps selon I'invention qui reconnait un epitope portant une 
mutation permet de discriminer entre une proteine «saine» et une proteine 

20 « associee k une pathologic ». 

Ainsi, I'etude du g^ne IBDl dans diverses maladies inflammatoires et/ou 
immunes humaines montre ainsi qu'il existe des variants de sequence de ce gene 
dans la maladie de Crohn, la rectocolite h^morragique et le syndrome de Blau, 
comma demontre par les exemples. Ces variations de sequence aboutissent a des 

25 variations importantes de la sequence proteique deduite. En efFet, elles sont soit 
localisees sur des sites tres conserves de la proteine dans des domaines fonctionnels 
importants, soit elles aboutissent a la synthese d'une proteine tronquee. II est done 
extremement probable que ces alterations entrament une modification de la fonction 
de la proteine et ment done un effet causal dans la survenue de ces maladies. 

30 La vari6t6 des maladies ou sont observees ces mutations suggere que le gene 

IBDl est potentiellement important dans de nombreuses maladies inflammatoires 
et/ou immunes. Ce resultat est a rapprocher du fait que la region pericentromerique 
du chromosome 16 a et6 decrite comme contenant des genes de susceptibilite a 
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diverses maladies humaines teUes que la spondylarthrite ankylosante ou le 
rhumatisme psoriasique. On peut done considerer qu'IBDl a m r6Je important dans 
un grand nombre de maladies inflammatoires et/ou immunes. 

En particulier, on peut associer IBDl aux maladies inflammatoires 
5 granulomateuses. En effet, le Syndrome de Blau et la MC sont des maladies faisant 
partie de cette famille. On espfere done trouver des variations dans le gfene IBDl 
pour les autres maladies de la meme famille (sarcoidose, maladie de Beh9et. . .)• 

De plus, rimplication de IBDl dans les voies cellulaires aboutissant a 
Tapoptose souleve la question de son eventual rQle carcinogene. En effet, il est 
10 attendu qu'une dysregulation de IBDl puisse aboutir a une predisposition 
canc^reuse. Cette hypothese est renforcee par le fait qu'il existe une predisposition 
au cancer du colon dans les maladies inflammatoires de I'intestin. IBDl pourrait en 
partie expliquer cette susceptibilite au cancer et definir de nouvelles voies de 
carcinogenese. 

15 La description precise des mutations observables dans le gene IBDl permet 

ainsi de poser les bases d'un diagnostic moleculaire des maladies inflammatoires et 
immunes ou son role est demontre. Une telle demarche, basee sur la recherche de 
mutations dans le gene, permettra de contribuer au diagnostic de ces maladies et 
eventuellement de reduire Timportance de certains examens complementaires 

20 invasifs ou couteux. L' invention pose les bases d'un tel diagnostic moleculaire base 
sur la recherche de mutations dans IBDL 

Le diagnostic moleculaire des maladies inflammatoires devrait aussi 
permettre d'ameliorer la classification nosologique de ces maladies et de mieux 
definir des sous-groupes de malades particuliers par leur caracteristiques cliniques, 

25 Tevolutivite de la maladie ou la r^ponse k certains traitements. A titre d'exemple, le 
d6membrement des mutations existantes pourrait ainsi permettre de classer les 
colites actuellement indeterminees qui representent plus de 10% des maladies 
inflammatoires de I'intestin, Une telle demarche permettra de proposer une prise en 
charge precoce adaptee k chaque patient. D'une mani^re generate, une telle 

30 demarche permet d'esperer pouvoir definir a terme une prise en charge 
individualisee de la maladie, en fonction du terrain g6n6tique de chaque malade, 
incluant des mesures curatives et preventives. 
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En particulier, on pr6fere une methode de diagnostic et/ou d'evaluation 
pronostique d'une maladie inflammatoire ou d'un cancer caracterisee en ce qu'on 
determine a partir d'un pr61evement biologique d'un patient la presence d'au moins 
une mutation et/ou une alteration d'expression du gtoe correspondant a SEQ ID N** 
5 1 ou SEQ E) N° 4 par Tanalyse de tout ou partie d'une sequence nucleique 
correspondant audit gene. On peut aussi etudier les genes SEQ ID N*" 3 ou SEQ ID 
N° 6. 

Cette methode de diagnostic et/ou d' evaluation pronostique peut 6tre utilisee 
de fagon preventive (etude d'une predisposition a ces maladies inflammatoires ou 

10 au cancer), ou afm de servir a Tetablissement et/ou la confirmation d'un etat 
clinique chez un patient. 

De preference, la maladie inflammatoire est une maladie inflammatoire du 
tube digestif, et le cancer est un cancer du tube digestif (intestin grele ou colon), 

L'enseignement de 1' invention permet en effet de connaitre les mutations 

15 presentant un desequilibre de liaison avec les maladies inflammatoires du tube 
digestif, et qui sont done associees a de telles maladies. 

L' analyse peut etre effectuee par sequence de tout ou partie du gene, ou par 
d'autres methodes connues de rhomme du metier. On peut en particulier utiliser 
des methodes basees sur la PGR, par exemple la PCR-SSCP qui permet de detecter 

20 des mutations ponctuelles. 

On peut egalement effectuer I'analyse par fixation d'une sonde selon 
I'invention correspondant a Tune des sequences SEQ ID N° 1, 3, 4 ou 6 sur une 
puce a ADN et I'hybridation sur ces microplaques. Une puce a ADN contenant une 
sequence selon I'invention est egalement un des objets de I'invention. 

25 De meme, une puce a prot^ines contenant une sequence d'acides amines 

selon I'invention est aussi un objet de I'invention. Une telle puce a proteines permet 
I'etude des interactions entre les polypeptides selon I'invention et d'autres proteines 
ou des composes chimiques, et peut ainsi etre utile pour le criblage de composes 
interagissant avec les polypeptides selon I'invention. On peut egalement utiliser les 

30 puces a proteines selon I'invention pour detecter la pr6sence d'anticorps diriges 
contre les polypetides selon Tinvention dans le serum de patients. On peut aussi 
mettre en oeuvre une puce a proteines contenant un anticorps selon I'invention. 
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L'homme du m6tier sait egalement mettre en oeuvre des techniques 
permettant Tetude de Talteration de 1' expression d'un gene, par exemple par Tetude 
de 1' ARNm (en particulier par Northern Blot ou par des experiences de RT-PCR, 
avec des sondes ou des amorces selon I'invention), ou de la proteine exprimee, en 
5 particulier par Western Blot, en utilisant des anticorps selon Finvention. 

Le gene teste est de preference le gene de sequence SEQ E) 1, la maladie 
inflammatoire pour laquelle on cherche a predire la susceptibilite etant une maladie 
du tube digestif, en particulier la maladie de Crohn, ou la rectocolite hemorragique. 
Si Ton cherche a detecter un cancer, il s'agit de preference du cancer du colon. 
10 L'invention se rapporte egalement a des procedes d'obtention d'un allele du 

genelBDl, associe aun phenotype detectable, comprenant les etapes suiv antes : 

a) obtenir un echantillon d'acide nucleique d'un individu exprimant 
ledit phenotype detectable ; 

b) mettre en contact ledit echantillon d'acide nucleique avec un 
15 agent capable de detecter specifiquement un acide nucleique 

codant pour la proteine IBDl ; 

c) isoler ledit acide nucleique codant pour la proteine IBDl . 

Un tel proc^de peut etre suivi d'une etape de sequence de tout ou partie de 
I'acide nucleique codant pour la proteine IBDl, ce qui permet de predire la 

20 susceptibilite a une maladie inflammatoire ou d'un cancer. 

L' agent capable de detecter specifiquement un acide nucleique codant pour 
la proteine EBDl est avantageusement une sonde d' oligonucleotides selon 
l'invention, qui peut etre form6e d'ADN, d'ARN, de PNA, modifies ou non. Les 
modifications peuvent inclure un marquage radioactif ou fluorescent, ou etre dues a 

25 des modifications dans les liaisons entre les bases (phosphorothioates, ou 
methylphosphonates par exemple). L'homme du metier connait les protocoles 
permettant d' isoler une sequence specifiquie d'ADN. L' etape b) du procede ci- 
dessus decrit peut egalement etre une 6tape d'amplification telle que decrite 
pr6cedemment. 

30 L'invention se rapporte egalement a un procede de detection et/ou de dosage 

d'un acide nucleique selon Tinvention dans un echantillon biologique, comprenant 
les 6tapes suivantesde mise en contact d'une sonde selon Tinvention avec un 
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&hantiIlon biologique et de detection et/ou dosage de I'hybride forme entre ledit 
polynucleotide et Tacide nucleique de r^chantillon biologique. 

L'homme du metier sait mettre en oeuvre un tel procdde, et peut en 
particulier utiliser une trousse de r6actifs comprenant : 
5 a) un polynucleotide selon Tinvention, utilise en tant que sonde ; 

b) les reactifs nteessaires a la mise en oeuvre d'une reaction 
d' hybridation entre ladite sonde et Tacide nucleique de 
I'echantillon biologique ; 

c) les reactifs necessaires a la detection et/ou le dosage de I'hybride 
•10 forme entre ladite sonde et I'acide nucleique de Techantillon 

biologique ; 
qui est egalement un objet de Tinvention. 

Une telle trousse peut Egalement contenir des controles positifs ou negatifs 

afin d' assurer la qualite des resultats obtenus. 
15 Toutefois, afin de detecter et/ou doser un acide nucleique selon Tinvention, 

l'homme du metier peut egalement effectuer une etape d' amplification a I'aide 

d'amorces choisies parmi les sequences selon Tinvention. 

Enfin, rinvention concerne egalement les composes choisis parmi un acide 

nucleique, un polypeptide, un vecteur, une cellule, ou un anticorps selon 
20 rinvention, ou les composes obtenus par les precedes de criblage selon I'invention, 

a titre de medicament, en particulier pour la prevention et/ou le traitement d'une 

maladie inflammatoire et/ou immune ou d'un cancer, associe a la pr&ence d'au 

moins une mutation du gene correspondant a SEQ ID N° I ou SEQ ID N*' 4, de 

preference une maladie inflammatoire du tube digestif, en particulier la maladie de 
25 Crohn ou la rectocolite hemorragique. 

Les exemples qui suivent permettent de mieux comprendre les avantages de 

rinvention et ne doivent pas etre consid^res comme limitant la port6e de 

rinvention. 

DESCRIPTION DES FIGURES 
30 Figure 1 : tests de liaison genStique non parametrique pour la maladie de Crohn 
dans la region pericentromerique du chromosome 16 (d'apres Hugot et al, 1996). 
Analyse de limson multipoint bas6 sur Tidentite par descendance pour les 
marqueurs de la region pericentromerique du chromosome 16. Les distances 
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g6n6tiques entre marqueurs ont et^ estim&s grace au programme CRIMAP, Le lod 
score (MAPMAKER/SIBS) est indique sur la figure de gauche. Deux tests de 
pseudo vraisemblance ont 6t6 d6velopp6s et rapportes sur la figure de droite. Le 
premier (Tz) est analogue au test des moyennes. Le deuxieme (Tz2) est analogue au 
5 test de la proportion des paires d*affect6s partageant deux alleles. 

Figure 2 : analyse de liaison g^n^tique multipoint non param^trique. 78 families 
avec plusieurs apparentes atteints de Maladie de Crohn ont ete genotypees pour 26 
marqueurs de polymorphisme dans la region p6ricentromerique du chromosome 16. 
La localisation de chaque marqueur est symbolisee par une flfeche. L'ordre des 

10 marqueurs et la distance les s6parant derive de Tanalyse des donnees 
exp6rimentales avec le logiciel Crimap. Les fleches sous la courbe indiquent les 
marqueurs SPN, D16S409 et D16S411 utilises dans la premiere etude publiee 
(Hugot et al., 1996).Les filches situees en haut de la figure correspondent aux 
marqueurs D16S3136, D16S541, 01683117, D16S416 et D16S770 localises au 

15 maximum du test de liaison genetique. Les donnees de typage ont et6 analysees a 
Taide du programme d'analyse multipoint non parametrique du logiciel Genehunter 
version 1.3. Le maximum du NPL Score est de 3.33 (p=0,0004). 
Figure 3 : representation sch6matique de la proteine codee par DBDl. La proteine 
codee par IBDl est repr&entde horizontalement. Les diff6rents domaines qui la 

20 composent sont indiques sur la figure avec le numero de reference des acides 
amines correspondant au debut et a la fin de chaque domaine. La proteine est 
constituee d'un domaine CARD, d'un domaine liant les nucleotides (NBD) et de 
motifs riches en leucines (LRR). 

Figure 4 : representation schematique de la proteine IBD1/N0D2 dans trois variants 
25 associes a MC. 

A : Le produit de traduction ddduit de la sequence d' ADNc du gene candidat IBDl 
est identique a celui de N0D2 (Ogura et al., 2000). Le polypeptide contient 2 
domaines CARD (CAspase Recruitment Domains), un domaine de liaison aux 
nucleotides (NBD) et 10 repetitions de 27 acides amines, des motifs riches en 
30 leucine (LRR). La sequence consensus du site du motif A (boucle P) liant 
rATP/GTP du NBD est indiquee par un cercle noir. Les changements de sequences 
codes par les trois principaux variants associes a MC sont SNP 8 (R675W), SNP 12 
(G881R) et SNP 13 (deplacement de cadre 980). Le deplacement de cadre change 
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utt codon leucine en un codon proline k la position 980 qui est immediatement suivi 
par uncodon stop. 

B : Variants feux sens rares de N0D2 chez 457 patients MC, 159 patients RCH et 
103 individus non apparentes, non atteints. Les positions des variants faux sens 

5 rares sont indiquees pour les trois groupes. L'echelle a gauche indique le nombre de 
chaque variant identifie dans les groupes faisant Tobjet de recherche et celle a 
droite mesure la frequence de la mutation. Les frequences alleliques du 
polymorphisme V928I n'etaient pas significativement di£Ferentes( 0,92 : 0,08) dans 
les trois groupes et les genotypes correspondants etaient en equilibre Hardy- 

10 Weinberg. 

EXEMPLES 

Exemple 1 : localisation fine de IBDl 

La premiere etape vers ridentification du gene DBDl a ete de reduire la taille 

15 de la region genetique d'interet, initial ement centree sur le marqueur D16S41 1 situe 
entre D16S409 et D16S419 (Hugot et al., 1996 et fig. 1). Un groupe de marqueurs 
proches (carte genetique a haute resolution) a ete utilise pour mieux preciser la 
region genetique et a permis de completer les analyses de liaison genetique et de 
rechercher un desequilibre de liaison genetique avec la maladie. 

20 L'etude a porte sur 78 families comportant au moins 2 apparentes atteints de 

MC, qui correspondaient 4 119 paires d'afFect^s. Les families comportant des 
malades atteints de RCH ont €t6 exclues de T^tude. 

Vingt-six marqueurs genftiques de polymorphisme de type microsatellites 
ont etudi^s. Ces marqueurs formaient ensemble une carte a haute resolution avec 

25 une distance moyenne entre marqueurs de I'ordre de IcM dans la region g6n6tique 
d'interet. Les caracteristiques des marqueurs 6tudi6s sont rapportes sur le tableau 1. 

Tableau 1. Marqueurs polymorphes de type microsatellite utilises pour la 
localisation fine de IBDl 



Nom du marqueur de 
polymorphisme 


Distance 
cumulee (cM) 


Amorces PGR 


D16S3120 
{AFM326VC5) 


0 


SEQIDN"? 
SEQn)N°8 


D16S298 
{AFMal89wg5) 


2,9 


SEQIDN°9 
SEQmN^lO 
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D16S299 


3,4 


SEQIDN° 11 
SEQIDN° 12 


SPN 


3,9 


SEQIDN°13 
SEQIDN°14 


D16S383 


4.3 


SEQroN" 15 
SEQIDN* 16 


D16S753 
(GGAA3G05) 


4.9 


SEQroN" 17 
SEQIDN" 18 


D16S3044 
(AFMa222za9) 


5.8 


SEQIDN' 19 
SEQIDN''20 


D16S409 
(AFMieixal) 


5,8 


SEQIDN°21 
SEQIDN''22 


D16S3105 
(AFMb341zc5) 


6,1 


SEQIDN*23 
SEQIDN*'24 


D16S261 
(MFD24) 


6,8 


SEQIDN°25 
SEQ]DN°26 


D16S540 
(GATA7B02) 


6,9 


SEQIDN°27 
SEQIDN''28 


DI6S3080 
(AFMb068zb9) 


7 


SEQIDN°29 
SEQIDN°30 


D16S517 
(AFMal32we9) 


7 


SEQIDN°31 
SEQIDN°32 


D16S411 
(AFM186xa3) 


8 


SEQIDN''33 
SEQIDN°34 


D16S3035 
(AFMal89wg5) 


10,4 


SEQIDN°35 
SEQIDN°36 


.D16S3136 
(AFMa061xe5) 


10,4 


SEQIDN°37 
SEQIDN°38 


D16S541 
(GATA7E02) 


11,4 


SEQrDN°39 
SEQIDNMO 


D16S3117 
(AFM288wbl) 


11.5 


SEQIDN°41 
SEQIDN°42 


D16S416 

(AFM210yg3) 


12,4 


SEQE>N''43 
SEQIDN°44 


D16S770 
(GGAA20G02) 


13,2 


SEQIDNMS 
SEQIDN° 46 


D16S2623 
(GATA81B12) 


15 


SEQ ID N° 47 
SEQIDN°48 


DloS390 


16,5 


SEQ ID N° 49 

SEQ ID N° 50 


D16S419 
(APM225zf2) 


20,4 


SEQ ID N° 51 
SEQ ID N° 52 


D16S771 
(GGAA23C09) 


21,8 


SEQ ID N° 53 
SEQ ID N° 54 


D16S408 
(AFM137xfB) 


25,6 


SEQ ID N» 55 

SEQ ID N° 56 


D16S508 
(AFM304xfl) 


38,4 


SEQ ID N° 57 
SEQ ID N° 58 
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Chaque marqueur est repertorie selon la nomenclature Internationale et le 
plus souvent par le nom propose par le laboratoire d'origine, Les marqueurs 
apparaissent selon leur ordre sur le chromosome (de 16p vers 16q). La distance 
gen^tique entre les marqueurs (en centiMorgan Kosambi, calculee par le 
5 programme Crimap a partir des donnees exp^rimentales) est indiquee dans la 
deuxieme colonne. Le premier marqueur polymorphe est pris arbitrairement comme 
point de reference. Les oligonucleotides ayant servi a la reaction de polymerisation 
en chaine (PGR) sont indiques dans la troisieme colonne. 

Le genotypage de ces marqueurs microsatellites a repose sur la technologie 
10 des sequenceurs automatiques utilisant des amorces fluorescentes. Brievement, 
apres amplification, les produits de reaction de polymerisation en chaine (PGR) 
fluorescents ont ete deposes sur un gel de polyacrylamide sur sequenceur 
automatique selon les reconmiandations du constructeur (Perkin Elmer). La taille 
des alleles pour chaque sujet a ete deduite grace au logiciels Genescan^ et. 
15 Genotyper^. Les donnees ont ensuite ete conservees sur une base informatique 
integr6e contenant les donnees genealogiques, phenotypiques et genetiques. EUes 
ont alors ete utilisees pour les analyses de liaison genetique. 

Plusieurs controles qualite ont ete realises tout au long de la procedure de 
genotypage: 

20 - double lecture independante des donnees de genotypage, 

- utilisation d'un ADN standard servant de contrdle interne pour chaque 
migration electrophoretique, 

- controle de la gamme de taille de chaque allele observe, 

- recherche d*erreurs de transmission mendelienne , 

25 - calcul de la distance genetique entre marqueurs (programme CRIMAP) 

et comparaison de celle-ci avec les doimees de la litterature, 

- nouveau typage des marqueurs pour lesquels il etait observe une 
recombinaison entre marqueurs proches. 

Les donnees de genotypage ont ^te analysees par des methodes de liaison 
30 genetique multipoint non parametrique (Programme GENEHUNTER version L3). 
L'informativitd du systdme de marqueurs etait superieure a 80% pour la region 
6tudiee. Le maximum du test (NPL= 3,33; P = 0,0004) a ete obtenu pour les 
marqueurs D16S541, D16S3117, D16S770 et D16S416 (figure 2). 
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Les donnees de typage pour ces 26 marqueurs de polymorphisme ont aussi 
ete analysees a la recherche d*un ddsequilibre de transmission. Deux groupes de 108 
et 76 families avec un ou plusieurs malades atteints de MC ont 6te etudies. Le test 
statistique de desequilibre de transmission a ete decrit par Spielman et al. (1993). II 
5 n'a 6te pris en compte dans ce travail qu'un seul malade par famille et la valeur de p 
a 6t6 corrig6e par le nombre d'alleles testes pour chaque marqueur etudi6. 

Un desequilibre de transmission a ete observe pour les alleles 4 et 5 (taille 
205, resp. 207 paires de bases) du marqueur D16S3136 (p=0,05, resp. p=0,01). 

Ces resultats suggestifs d'une association entre le marqueur D16S3136 et la 
10 MC ont conduit a construire une cartographic physique de la region genetique 
centree sur D16S3136 et a etablir la sequence d'un segment d'ADN genomique de 
grande taille (BAC) contenant ce site polymorphe. II a alors 6t6 possible d'identifier 
et d'analyser un plus grand nombre de marqueurs de polymorphisme dans le 
voisinage de D16S3136 ainsi que de defmir et d'etudier les sequences transcrites 
1 5 presentes dans la region. 

Exemple 2 : cartographic physique de la region IBDl 

Un contig de fragments d'ADN genomique, centre sur les marqueurs 
D16S3136, D16S3117, D16S770 et D16S416, a ete genere a partir des banques 

20 d'ADN genomique humain de la fondation Jean Dausset/CEPH. Les segments 
d'ADN chromosomique ont ete identifies a partir de certains marqueurs de 
polymorphisme utilises dans la cartographic genetique fine (D16S411, D16S416, 
D16S541, D16S770, D16S2623, D16S3035, D16S3117 et D16S3136). Pour chaque 
marqueur, une banque de chromosomes artificiels de bacteries (BAC) a ete criblee 

25 par PCR a la recherche de clones contenant la sequence du marqueur. Selon que les 
sequences testees etaient ou non presentes sur les clones de BAC il a ete alors 
possible d'organiser les clones entre eux aj'aide du logiciel Segmap version 3.35. 

On a pu etablir, pour les BACs, une organisation continue (contig) couvrant 
la region genetique d'interet, selon une methode connue de Thomme du metier 

30 (Rouquier et al., 1994 ; Kim et al., 1996 ; Asakawa et al., 1997). Pour ce faire, les 
extremites des BACs identifies ont ete sequencees et ces nouvelles donnees de 
sequence ont alors servi a cribler iterativement les banques de BACs. A chaque 
criblage, le contig de BAC a alors progresse d'un pas jusqu'a i'obtention d'un 
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continuum de clones chevauchants. La taille de chaque B AC participant au contig a 
ete deduite de son profil de migration sur gel d'agarose en champ pulse. 

On a ainsi construit un contig de BAC contenant 101 BACs et s'etendant sur 
une distance globale de plus de 2,5 Mb avec une redondance moyenne de 5,5 BAC 
5 a chaque point du contig. La taille moyenne des BAC est de 136kb. 

Example 3 : sequenpage du BAC hb87bl0 

Le BAC de ce contig contenant le marqueur de polymorphisme D16S3136 
(appele hb87bl0), dont la taille etait de 163761 bp a ete sequence selon la methode 

10 dite du "coup de fijsil". En bref, TADN du BAC a ete fragmente par sonication. Les 
fragments d'ADN ainsi generes ont ete soumis a une electrophorese en gel d'agarose 
et ceux dont la taille etait superieure a 1,5 kb ont 6t6 elus pour etre analyses. Ces 
fragments ont ensuite ete clones dans le phage ml3 lui meme introduit dans des 
bacteries rendues competentes par electroporation. Apres culture, I'ADN des clones 

15 a ete recupere et sequence par des methodes de sequen9age automatique a Taide 
d'amorces fluorescentes du vecteur ml3 sur sequenceur automatique. 

1526 sequences differentes d*une taille moyenne de 600 bp ont ete generees, 
qui ont ete organisees entre elles grace au logiciel Polyphredphrap^ aboutissant a un 
contig de sequence couvrant Tensemble du BAC. La sequence ainsi generee avait 

20 une redondance moyenne de 5,5 equivalents genomiques. Les rares (n=5) 
intervalles de sequence non repr^sentes dans la banque de clones ml 3 ont ete 
combles en generant des amorces de PCR specifiques, de part et d'autre de ces 
intervalles, et en analysant le produit de PCR derive de I'ADN genomique d'un sujet 
sain. 

25 Des homologies de sequence avec des sequences disponibles dans les bases 

de donnees gendtiques publiques (Genbank) ont et6 recherchees. Aucun gene connu 
n'a pu etre identifie dans cet intervalle de 163 kb. Plusieurs EST ont 6t6 positionnes 
suggerant que des genes inconnus 6taient contenus dans cette sequence. Ces EST 
issus des bases de donnees g^netiques publiques (Genbank, GDB, Unigene, dbEST) 

30 portaient les references suivantes : AI167910, AI011720, Rn24957, Mm30219, 
hsl32289, AA236306, hs87296, AA055131, hsl51708, AA417809, AA417810, 
hs61309, hsl 16424, HUMGS01037, AA835524, hsl05242, SHGC17274, 
hsl46128, hsl22983, hs87280 et hsl3520L La recherche d'exons putatifs a I'aide 
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du programme informatique GRAIL a permis d'identifier plusieurs exons potentiels, 
sites de polyadenylation et sequences promotrices. 

Exemple 4 : etudes de desequilibre de transmission 
5 12 marqueurs de polymorphisme bialleliques (SNP) ont ete identifies dans 

une region s'etendant sur environ 250 kb et centr^e sur le BAG hb87bl0. Ces 
polymorphismes ont ete g6neres par analyse de la sequence d'une dizaine de 
malades independants atteints de MC, Le sequenjage a ete le plus souvent realist au 
niveau dEST connus et positionnes sur le BAG ou a son voisinage. Des exons 
10 putatifs, predits par le programme informatique GRAJL ont aussi ete analyses. Les 
caract^ristiques des marqueurs polymorphes ainsi identifies sont rapportees sur le 
tableau 2. 

Tableau 2. Garact6ristiques de marqueurs de polvmorphisme bialleliques etudies 
15 dans la region de IBDl 



I 


n 


III 


IV 


V 


VI 


1 


KIAA0849ex9 


PCR-AS 




SEQIDN°88a90 


116 


2 


hb27GllF 


PCR-RFLP 


Bsrl 


SEQIDN°86,87 


185 
116 
69 


3 


Ctg22Exl 


PCR-RFLP 


Rsal 


SEQIDN°84,85 


381 
313 
69 


4 


SNPl 


PCR-AS 




SEQ ID N° 81 a 83 


410 


5 


ctg2931-3ac/ola 


LO 




SEQIDN°78a80 


51 
49 


6 


ctg2931-5ag/ola 


LO 




SEQIDN" 75 a 77 


44 

42 


7 


SNP3-2931 


PCR-AS 




SEQIDN° 72 a 74 


245 


8 


Ctg25Exl 


PCR-RFLP 


BsteU 


SEQ ID N"* 70, 71 


207 
122 
85 
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9 


L1(j35 bxA 






iSJcivj ID JN 0/ a oy 


'111 






AC 






lyo 


11 


D16S3136 






SEQIDN°37,38 




12 


hbl33Dlf 


PCR-RFLP 


Taql 


-SEQroN«62,63 


369 
295 
74 


13 


D16S3035 






SEQIDN''35,36 




14 


ADCY7 int? 


PCR-AS 




SEQIDN°59a61 


140 



PCR-AS : PCR-allele sp6cifique ; LO : Ligature d*oligonucl6otides 
Les 12 marqueurs de polymorphisme bialleliques nouvellement decrits dans 
ce travail sent repertories dans ce tableau. Pour chacun d'eux sont indiques : 
5 - le locus (colonne I) 

- le nom (colonne II) 

- la technique de genotypage utilisee (colonne III) 

- Tenzyme de restriction eventuellement utilisee (colonne IV) 

- les amorces oligonucleotidiques utilisees pour la reaction de 
1 0 polymerisation en chalne ou pour la ligature (colonne V) 

- la taille des produits attendus lors du typage (colonne YI) 

199 families comportant 1 ou plusieurs malades atteints de MC ont et6 
typees pour ces 12 marqueurs de polymorphisme ainsi que pour les marqueurs 
D16S3035 et D16S3136 localises sur le BAG hbSTblO. Les families comportant des 
16 malades atteints de RCH n^ont pas 6te prises en compte. Les methodes de typage 
des polymorphismes etudies ont €t€ variables en fonction du type de 
polymorphisme faisant appel a : 

- la technique de PCR-RFLP (amplification suivie de digestion 
enzymatique du produit de PCR) quand le polymorphisme 6tait situe sur 

20 un site de restriction enzymatique. 

" PCR avec amorces sp6cifiques du site polymorphe : amplification 
difFerentielle des deux alleles en utilisant des amorces specifiques de 
chaque allele. 
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- Test de ligation d'oligonucleotides : ligation difffrentielle utilisant des 
oligonucleotides specifiques de chaque allele, suivie d'electrophorese en 
gel de polyacrylamide. 
Les donnfes de typage out ensuite ete analysees selon un test de d6sequilibre 
5 de transmission (programme informatique TDT du logiciel GENEHUNTER version 
2). Pour les families comportant plusieurs apparentes atteints, un seul malade a ete 
pris en compte pour Tanalyse. En effet, la prise en compte de plusieurs malades 
apparentes pose le probleme de non independance des donnees dans les calculs 
statistiques et peut induire une inflation de la valeur du test. Le malade servant a 
10 Tanalyse a ete tire au sort au sein de chaque faraille par une procedure automatique 
de randomisation. Compte tenu de cette randomisation, la valeur du test statistique 
obtenu ne repr6sentait qu'un seul echantillon possible issu du groupe de families 
etudiees. Afm de ne pas limiter I'anaiyse a ce seul echantillon possible et pour 
mieux apprehender la robustesse des resultats obtenus, pour chaque test, une 
1 5 centaine d'echantillons aleatoires ont ainsi ete generes et analyses. 

Les marqueurs ont ete etudies separement puis groupes selon leur ordre sur 
le segment chromosomique (KIAA0849ex9 (locus 1), hb27GllF (locus 2), 
Ctg22Exl (locus 3), SNPl (locus 4), ctg2931-3ac/ola (locus 5), ctg2931-5ag/ola 
(locus 6), SNP3-2931 (locus 7), Ctg25Exl (locus 8), CTG35ExA (locus 9), 
20 ctg35ExC (locus 10), dl6s3136 (locus 11), hbl33Dlf (locus 12), D16S3035 (locus 
13), ADCY7int7 (locus 14)) (tableau 2). Les haplotypes comportant 2, 3 et 4 
marqueurs consecutifs ont ainsi ete analyses en utilisant toujours la meme strat^gie 
(100 echantillons aleatoires en prenant pour chaque famille un seul individu atteint). 
Pour chaque echantillon test^, il n'a ete pris en compte que les genotypes (ou 
25 haplotypes) portes par au moins 10 chromosomes parentaux. En moyenne 250 tests 
difFerents ont ainsi et6 realises pour chaque echantillon. II a alors ete possible de 
deduire le nombre de tests attendus positifs pour chaque seuil de signification et de 
comparer cette distribution a la distribution observee. Pour les sujets sains, la 
distribution des tests n'est pas difFerente de celle attendue selon le hasard {y^ - 2,85, 
30 ddl=4, p=0,58). Pour les sujets malades, au contraire, il existe un exces de tests 
positifs temoignant de Texistence d'un desequilibre de transmission dans la region 
etudiee. 
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Les r6sultats des tests de desequilibre de transmission pour chaque marqueur 
de polymcrphisme pris isolement et pour les haplotypes montrant les plus forts 
desequilibres de transmission ont montre que les marqueurs suivants sont en 
desequilibre de liaison avec la maladie: Ctg22Exl (locus 3), SNPl (locus 4), 
5 ctg293^5ag/ola (locus 6\ SNP3-2931 (locus 7), Ctg25Exl (locus 8) et ctg35ExC 
(locus 10). Ces marqueurs s'etendent sur une region d'environ 50kb (positions 
74736 a 124285 sur la sequence de hb87blO). 

Les haplotypes les plus fortement associes avec la maladie de Crohn 
s'etendent eux aussi sur cette region. Ainsi, pour la majority des echantillons 
10 al6atoires, le test de transmission etait positif (p < 0,01) pour des haplotypes 
combinant les marqueurs suivants : 

- locus 5-6, locus 6-7, locus 7-8, locus 8-9, locus 9-10, locuslO-1 1 

- locus 5-6-7, locus 6-7-8, locus 7-8-9, locus 8-9-10, locus 9-10-1 1 

- locus 5-6-7-8; locus 6-7-8-9, locus 7-8-9-10, 

1 5 L'haplotype de susceptibilite le plus a risque est defini par les locus 7 a 10. II 

s'agit de l'haplotype K2-1-2 (tableau 2). 

Les marqueurs testes sont, comme attendu, le plus souvent en desequilibre 
de liaison entre eux. 

Plus recemment, un nouveau test, le Pedigree Disequilibrium Test (PDT), 

20 publie en juillet 2000 (Martin et al, 2000) a ete utilise pour mieux apprehender la 
signification des resultats obtenus avec le programme informatique TDT. Cette 
nouvelle statistique permet en eflfet d'utiliser Tensemble de I'information disponible 
dans une famille, tant a partir des sujets malades qu'a partir des sujets sains et de 
ponddrer I'importance de chaque apparente en une statistique globale pour chaque 

25 famille. Les valeurs de p correspondant aux tests PDT et obtenues pour un groupe 
elargi de 235 families avec un ou plusieurs apparentes atteints de la maladie de 
Crohn sont rapportees dans le Tableau 3. Cette nouvelle analyse confirme que la 
region du BAC hb87bl0 est bien associee avec la maladie de Crohn. 
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Tableau 3. R6sultat des tests PPT realises sur 235 fami lies atteintes de la maladie 
de Crohn CNS : non significatif) 



LOCUS 


VALECR p DU TEST PDT 


KIAA0849ex9 


NS 


hb27gllf 


0,05 


ctg22exl 


0,01 


SNPl 


0,001 


ctg2931-3ac/ola 


NS 


ctg2931-5ag/ola 


0,0001 


SNP3-2931 


0,0001 


ctg25ex] 


0,0006 


ctg35exA 


NS 


ctg35exC 


0,00002 


D16S3136 


NS 


hbl33dlf 


NS 


D16S3035 


NS 



Exemple 5 : Identification du gene IBDl 
5 Les groupements d'EST (references Unigene : Hs 135201, Hs87280, 

Hsl22983, HsI46128, Hsl05242, HsI 16424, Hs61309, Hsl51708, Hs 87296 et 
Hsl32289) publics et presents sur le BAC hb87bl0 ont ete etudies a la recherche 
d'une sequence d'ADN complementaire (ADNc) plus complete. Pour BBDlprox, les 
clones disponibles dans les banques publiques ont ete sequences et les sequences 

10. organisees entre elles. Pour IBDl, une banque d'ADN complementaire de sang 
peripherique (Stratagene human blood cDNA lambda zapexpress ref 938202) a ete 
criblee par les produits de PGR generes a partir des EST connus selon les modalites 
proposees par le fabriquant. La sequence des ADNc ainsi identifies a ensuite servi a 
un nouveau criblage de la banque d'ADNc et ainsi de suite jusqu'a Tobtention de 

15 I'ADNc presente. 

LEST hsl35201 (UniGene) a permis d'identifier un ADNc ne figurant pas 
sur les bases de donnees genetiques disponibles (Genbank) II correspond done a un 
nouveau gene humain. La comparaison de la sequence du cDNA et de I'ADN 
genomique a montre que ce gene est constitue de 1 1 exons et 10 introns. Un exon 
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suppI6mentaire, en position 5' par rapport au cDNA identifie est predit par Tanalyse 
de la sequence avec le logiciel Grail. Ces axons sont tres homologues avec les 
premiers exons du gene CARD4/N0D1. Considerant I'ensemble des exons 
identifiees et Texon putatif suppleraentaire, ce nouveau gene apparait avoir une 

5 structure genomique tr^s proche de celle de CARD4/N0D1. Par ailleurs, en amont 
du premier exon putatif figure un site d'initiation de la transcription. Pour 
I'ensemble de ces raisons, Texon putatif a et6 considere comme participant a ce 
nouveau gene, L'ADNc reporte en annexe (SEQ ID N"" 1) comporte done Tensemble 
de la sequence identifiee plus la sequence predite par la modelisation informatique, 

10 I'ADN complementaire debutant arbitrairement au premier codon ATG de la 
sequence codante predite. Sur cette base, le gene comporterait done 12 exons et 11 
introns. La structure intron-exon du gene est rapportee sur la SEQ ID N° 3, 

La sequence proteique deduite de la sequence nucleotidique, comporte 1041 
acides amines (SEQ ID N° 2). Cette sequence n'a pas non plus ete retrouvee sur les 

1 5 bases de donnees biologiques (Genpept, pir, swissprot). 

Or, plus recemment, Texon putatif ci-dessus decrit n'a pas pu etre confirme. 
Le gene IBDl ne comporte done efFectivement que 11 exons et 10 introns et code 
pour une proteine de 1013 acides amines (c'est-a-dire 28 acides amines de moins 
que determine initialement), 

20 L'etude de la sequence proteique deduite montre que ce gene contient trois 

domaines fonctionnels differents (figure 3) : 

- Un domaine CARD (Caspase Recruitment Domain) connu pour etre 
implique dans I'interaction entre proteines r^gulatrices de Tapoptose et 
de I'activation de la voie NFkappa B. Le domaine CARD permet de 

25 classer cette nouvelle proteine dans la famille des proteines CARD dont 

les membres les plus anciens sont CED 4, APAFl et RICK. 

- Un domaine NBD (Nucleotide Binding Domaine) coraportant un site de 
reconnaissance de T ATP et un site de liaison du Magnesium. La proteine 
doit done avoir une activite kinase tres probable. 

30 - Un domaine LRR (Leucine Rich Domain) suppose participer a 

I'interaction entre proteines par analogic avec d'autres domaines 
protfiques decrits . 
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Par ailleurs, le domaine LRR de la proteine permet d'affilier la proteine a 
une famille de proteines impliquees dans la signalisation intracellulaire et presentes 
tant chez les plantes que chez les animaux. 

La comparaison de ce nouveau g^ine avec les genes pr6c6demment identifies 
5 et disponibles dans les bases de donnees publiques montre que celui-ci est tres 
homologue avec CARD4/N0D1 (Berlin et al, 1999 ; Inohara et al., 1999). Cette 
homologie porte sur la sequence de TADN complementaire, la structure intron-exon 
du gene et la sequence proteique. L^identite de sequence des 2 ADN 
compl6mentaires est de 58%. Une similitude est egalement observee au niveau de la 
1 0 structure introns-exons. L'homologie de sequence au niveau proteique est de Tordre 
de 40%. 

La similitude entre ce nouveau gene et CARD4/N0D1 suggere que, comme 
CARD4/N0D1, la proteine IBDl est impliquee dans la regulation de I'apoptose et 
de Tactivation de NF-kappa B (Bertin et al., 1999 ; Inohara et aL, 1999). La 

15 regulation de I'apoptose cellulaire et I'activation de NF-kappa B sent des voies de 
signalisation intracellulaire essentielles dans les reactions immunitaires. En efFet, 
ces voies de transduction du signal sont les voies effectrices des proteines de la 
famille du recepteur du TNF (Tumor Necrosis Factor) impliquees dans les 
interactions cellule-cellule et la reponse cellulaire aux differents mediateurs de 

20 rinflammation (cytokines). Le nouveau gene apparait done comme potentiellement 
important a la reaction inflammatoire, de fafjon generale. 

Plusieurs faisceaux de preuves viennent a I'appui de la deregulation de NF- 
kB induit par des bacteries dans la maladie de Crohn. Tout d'abord, la susceptibilite 
a IBD spontanee chez les souris a ete associee a des mutations dans Tlr4, une 

25 molecule connue pour se lier aux LPS par Tintermediaire de son domaine LRR 
(Poltorak et al, 1998 et Sundberg et al., 1994) et pour etre un membre des 
activateurs de la famille de NF-kB. Deuxiemement, la therapie antibiotique cause 
une amelioration provisoire chez les patients atteints de MC accreditant Thypothese 
que les bacteries enteriques peuvent jouer un role etiologique dans la maladie de 

30 Crohn (McKay, 1999). Troisiemement, NF-kB joue un role pivot dans les maladies 
inflammatoires de I'intestin et est active dans les cellules mononucleees de la 
lamina propria dans la maladie de Crohn (Schreiber et al,, 1998). Quatriemement, le 
traitement de la maladie de Crohn est basee sur Tutilisation de la sulfasalazine et 
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des glucocorticoides, tous deux connus comme 6tant des inhibiteurs de NF-kB 
(Auphan et al., 1995 et Wahl et al., 1998) 

Encore plus recemment, il a ete montr6 que le gene candidal DBDl code 
pour une prot6ine tres similaire a N0D2, un membre de la. superfamille 
5 CED4/APAF1 (Ogura et al, 2000). Les sequences nucleotidiques et proteiques de 
BDl et N0D2 ne divergent en realite que pour une petite portion toute initiale des 
2 s6quences rapport^es. Les expressions tissulaires de Nod2 et IBDl sont de plus 
superposables. Ces deux genes (proteines) peuvent done etre considere(e)s comme 
identiques. II a ete demontre que le domaine LRR de Nod2 a une activite de liaison 
10 pour les lipopoly saccharides bacteriens (LPS) (Inohara et al., 2000) et que sa 
deletion stimule la voie de NFkB. Ce resultat confirme les donnees de T invention. 

L' expression tissulaire de IBDl a ete ensuite etudiee par la technique du 
Northern Blot Un transcrit de 4.5 kb est visible dans la plupart des tissus humains. 
La taille du transcrit est conforme avec la taille predite par T ADNc. Le transcrit de 
15 4.5 kb semble en tres faible abondance dans I'intestin grele et le colon. II est par 
contre tres fortement exprime dans les globules blancs. Ceci est en accord avec des 
donnees cliniques sur les transplantations qui suggerent que la maladie de Crohn est 
potentiellement une maladie liee aux cellules immunitaires circulantes. En efFet, la 
transplantation intestinale n'empeche pas la recidive sur le greffon dans la maladie 
20 de Crohn tandis que la transplantation de moelle osseuse semble avoir un efFet 
b^nefique sur 1' evolution de la maladie. 

Certaines donnees font egalement penser a un epissage alternatif, qui 
pourrait s'averer un element important dans la possibilite de gen6rer des mutants 
qui pourraient jouer un role dans le developpement de maladies inflammatoires. 
25 Le promoteur du gene IBDl n'est actuellement pas identifie avec precision. 

II est cependant raisonnable de penser, par analogic avec un tres grand nombre de 
genes que celui-ci reside, au moins pour partie, immediatement en amont du gene, 
dans la portion 5' de celui-ci. Cette region genetique contient des sequences 
transcrites comme en t^moigne la presence d'EST (HUMGS01037, AA835524, 
30 hs.l05242, SHGC17274, hs.l46128, hs.l22983, hs.87280). Les clones ATCC 
contenant ces sequences ont ete sequences et analyses dans le laboratoire, 
permettant de mettre en evidence une organisation en exons et en introns avec 
rfdventuels epissages altematifs. Ces donnas suggerent Texistence d'un autre gene 
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(nomm6 IBDlprox en raison de sa proximity d'IBDl). La sequence partielle de 
TADN compl^mentaire de IBDlprox est rapportte (SEQ ID N*' 4) de meme que sa 
structure intron-exon sur la SEQ ID N° 6. 

La traduction des ADNc correspondant i IBDlprox aboutit a une proteine 
5 contenant une hom6obox. L*analyse de plusieurs ADNc du ghne suggere cependant 
I' existence d'epissages alternatifs. IBDlprox, selon un des 6pissages altematifs 
possibles correspond k TEST anonyme HUMGS01037 dont TARN est exprime de 
maniere plus importante dans les ligntes leucocytaires differenciees que dans les 
lignees non differenciees. 

10 Ainsi, il est possible que ce gene puisse avoir un role dans rinflammation et 

la differentiation cellulaire. II peut done lui aussi etre considere comme un bon 
candidat pour la susceptibilite aux MICL L'association entre MC et le 
polymorphisme ctg35 ExC localise sur la sequence codante de IBDlprox renforce 
cette hypothese meme si ce polymorphisme n'entraine pas de variation de sequence 

15 au niveau proteique. 

Enfin, plus r^cemment, Texistence d*une liaison genetique dans les families 
atteintes de la maladie de Crohn et ne comportant pas de mutation du gene IBDl 
* suggere elle aussi que IBDl prox a un role additionnel a IBDl dans la 
predisposition genetique a la maladie. 

20 La relation fonctionnelle entre IBDl et IBDlprox n'est actuellement pas 

etablie. Toutefois, la forte proximite entre les deux genes pourrait refleter une 
interaction entre ceux-ci. Dans ce cas, la localisation « tete -beche » de ces genes 
suggere qu'ils puissent avoir des modes de regulation communs ou interdependants. 

25 Exemple 6 : identifications de mutations du gene IBDl dans les maladies 
inflammatoires 

Afm de confirmer le r61e de IBDl dans les maladies inflammatoires, la 
sequence codante et les jonctions intron-exon du gene ont ete sequencees de Texon 
2 a Texon 12 inclus chez 70 sujets independants, i savoir : 50 malades atteints de 
30 MC, 10 malades atteints de RCH, 1 malade atteint de syndrome de Blau et 9 
temoins sains. Les malades etudi6s etaient pour la plupart des formes familiales de 
la maladie et etaient souvent porteurs de Thaplotype de susceptibilite defini par les 
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Etudes de d^s^quilibre de transmission. Les t&moins sains etaient d*origine 
caucasienne. 

24 variants de sequence ont ainsi pu Stre identifies sur ce groupe de 70 
personnes non apparentees(tableau 3), 
5 La nomenclature des mutations rapporttes fait rdf6rence i la sequence 

initiale de la prot^ine comportant 1041 acides amines. La nomenclature plus 
rteemment proposee est aisement deduite en retirant 28 acides amin& a la sequence 
initiale, et correspond done a une proteine comprenant 1013 acides amines (cf 
exemple 5), 

10 

Tableau 4. Mutations observ6es dans le gene BBDl 



Exon 


Variant 


Variant 


MaJaaie oe 


Kectocoiite 


T^moins 








frnhn 






1 


non teste 










2 


G417A 


silencieux 








2 


C537G 


silencieux 








3 


aucun 










4 


T805C 


S269P 


48/100 


6/20 


3/18 


4 


A869G 


N290S 


0 


0 


1/18 


4 


C905T 


A302V 


1/100 


0 


0 


4 


C1283T 


P428L 


1/100 


0 


0 


4 


C1284A 


silencieux 








4 


C1287T 


silencieux 








4 


T1380C 


silencieux 








4 


T1764G 


silencieux 








4 


G1837A 


A613T 


1/100 


0 


0 


4 


C2107T 


R703W 


10/10 


1/20 


1/18 


4 


C2110T 


R704C 


4/10 


1/20 


0 


5 


G2365A 


R792Q 


1/100 


0 


0 


5 


G2370A 


V794M 


0 


1/20 


0 


5 


G2530A 


E844K 


1/10 


0 


0 


6 


A2558G 


N853S 


1/100 


0 


0 


6 


A2590G 


M864V 


1/100 


0 


0 


7 


aucun 










8 


G2725C 


G909R 


7/100 


0 


0 


8 


C2756A 


A919D 


1/100 


0 


0 


9 


G2866A 


V956I 


2/100 


1/20 


3/18 


10 


C2928T 


silencieux 








n 


3022insC 


stop 


20/100 


0 


0 
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12 


auciu] 











Les mutations autres que silencieuses observees dans chaque exon sont 
rapportees. EUes sont indiquees par la variation de la chaine peptidique. Pour 
chaque mutation et pour chaque ph^notype etudie, il est indique le nombre de fois 
ou la mutation est observe, rapports au nombre de chromosomes testes. 
5 Aucun variant de sequence fonctionnel n'a 6t6 identifie dans les exons 1 a 3 

(correspondants au domaine CARD de la prot^ine), Les exons 7 et 12 n'ont pas non 
plus montrS de variation de sequence. Certains variants correspondaient a des 
polymorphismes d6j4 identifies et types pour les etudes de desequilibre de 
transmission, a savoir : 
1 0 -Snp3-293 1 : variant nucl^otidique T805C, variant proteique S269P 

-ctg2931-5ag/oIa : variant nucleotidique TI380C (silencieux) 
-ctg2931-3ac/ola : variant nucleotidique T1764G (silencieux) 
-SNPl : variant nucleotidique C2107T, variant proteique R703W 
Plusieurs variations de sequence etaient silencieuses (G417A, C537G, 
1 5 C1284A, C1287T, T1380C, T1764G, C2928T) et rfentrainaient pas de modification 
de la sequence proteique. EUes n*ont pas ete etudiees davantage ici. 

Pour les 16 variations de sequence non silencieuses, il a et6 observ6 des 
variants de sequence proteique chez 43/50 MC centre 5/9 temoins sains et 6/10 
RCH. L'existence tfune ou plusieurs variation(s) de sequence apparaissait associee 
20 au phenotype MC. II ©dstait souvent plusieurs variations de sequence chez un 
mSme individu atteint de MC suggerant un effet parfois recessif du gene pour la 
MC. A rinverse, aucun homozygote ou h^terozygote composite n'6tait observe 
parmi les patients atteints de RCH ou parmi les temoins sains. 

Certains variants non silencieux etaient presents a la fois chez les malades 
25 atteints de RCH ou de MC et chez les sujets sains. II s'agissait des variants S269P, 
N290S, R703W et V956I situes dans les exons 2, 4 et 9. Un complement 
d*information semble done n6cessaire avant de retenir un eventuel r61e fonctionnel a 
ces variants de sequence. 

V956I est une variation de sequence conservative (acides amines 
30 aliphatiques). 

Le variant de sequence S269P correspond a une variation de classe d'acide 
amin6 (hydroxyle en immunoacide) au debut du domaine liant les nucleotides. II en 
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d6s6quilibre de transmission avec la MC. II s'agit en efFet du polymorphisme Snp3 
(Cf. supra). 

R703 W aboutit a une modification de la classe de Tacide amine (aromatique 
au lieu de basique). Cette modification survient dans ]a region intermediaire entre 
5 les domaines NBD et LRR, region conserve entre BDl et CAKD4/N0D1 , Un role 
fonctionnel peut done 6tre suspecte pour ce polymorphisme. Cette variation de 
sequence (correspondant au site polymorphe Snpl) est plus souvent transmise au 
malades atteints de MC que ne le veut le hasard (C£ supra) confirmant que ce 
polymorphisme est associ^ a la MC. li est possible que la presence de ce mutant 

10 chez les sujets sains temoigne d'une penetrance incomplete de la mutation comme 
cela est attendu pour les maladies genetiques complexes telles que les maladies 
inflammatoires chroniques de I'intestin. 

Le variant R704C> situe immediatement a cote de R703W a pu etre identifie 
a la fois dans la MC et dans la RCH. II correspond lui aussi a une variation non 

15 conservative de la proteine (acide amine soufre au lieu de basique) sur la meme 
region proteique, suggerant un effet fonctionnel aussi important pour R704C que 
pourR703W. 

D'autres variations de sequence sont specifiques de la MC de la RCH ou du 
syndrome de Blau. 

20 Certaines variations de sequence sont au contraire rares, presentes chez un 

ou quelques malades (A613T. R704C, E844K, N853S, M864V, A919D). II s^agit 
toujours de variations entrainant des modifications non conservatives de la proteine 
dans des domaines leucine riches, a des positions importantes au sein de ces 
domaines. Ces difiRSrents el6ments suggerent que ces variations ont un rdle 

25 fonctionnel 

Deux variations de sequence (G909R, L1008P*) sont retrouvees chez un 
assez grand nombre de maladies de Crohn (respectivement 7/50 et 16/50) alors 
qu*elles ne sont pas d^tectees chez les temoins ou chez les malades atteints de RCH. 

La d616tion/insertion d'une guanosine au niveau du codon 1008 aboutit a une 
30 transformation de la troisieme leucine de I'helice alpha du dernier LRR en proline 
suivie d'un codon STOP (L1008P*). Cette variation de sequence entraine done une 
modification importante de la prot6ine : reduction de taille de la proteine (proteine 
possidant un domaine LRR tronqu6) et alteration d*un acide amin6 tres conserve 



» 
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(Leucine). Cette modification de sequence est associee a laMC comme en temoigne 
une etude de d^sequilibre de transmission dans 16 families porteuses de la mutation 
(P=0,008). 

La mutation G909R survient sur le dernier acide amine du sixieme motif 
5 LRR. II remplace un acide amine aliphatique en acide amin6 basique. Cette 
variation est potentiellement importante compte tenu du caractere habituellement 
neutre ou polaire des acides amines en position terminale des motifs leucine riche 
(tant pour IBDl que pour N0D1/CARD4) et du caractere conserve de cet acide 
amine sur les proteines fflDl et N0D1/CARD4. 

10 Dans le syndrome de Blau, les malades (n=2) de la famille etudiee etaient 

porteurs d'une variation de sequence specifique (L470F), Jocalisee dans Texon 4 et 
correspondant au domaine NBD de la proteine. Dans cette serie, ce variant de 
sequence etait specifique du syndrome de Blau, 

Dans la RCH, plusieurs variants de sequence non retrouves chez les sujets 

1 5 sains ont aussi ete identifies. La proportion de malades porteurs d*une mutation etait 
plus modeste que pour la MC, comme attendu compte tenu de la liaison moins 
fortement etablie entre IBDl et RCH et du caractere suppose moins genetique de 
cette demiere maladie. Des variations de sequence etaient communes a la MC et a 
la RCH (R703W, R704C), D'autres au contraires apparaissaient specifiques de la 

20 RCH (V794M). Cette observation permet de confirmer que MC et RCH sent des 
maladies partageant au moins en partie la mSrae predisposition genetique. Elle pose 
les bases d'une classification nosologique des MICL 

L'etude des variants de sequence du gene IBDl a done permis d'identifier 
plusieurs variants ayant un efFet fonctionnel tr^s probable (ex : proteine tronquee) et 

25 associSs a la maladie de Crohn, a la RCH et au syndrome de Blau. 

Le promoteur du g^ne n*est actuellement pas determine. Selon toute 
vraisemblance cependant, celui-ci est probablement situe dans la region 5' en amont 
du gene. Selon cette hypothese, les variants de sequence observes dans cette region 
peuvent avoir un effet fonctionnel. Ceci pounait expliquer la tres forte association 

30 entre MC et certains locus polymorphes tels que ctg35 ExC ou Ctg25Exl . 

L' invention foumit ainsi la premiere description de mutations dans la 
famille des g^nes contenant un domaine CARD chez Thomme. La frequence de ces 
mutations dans des maladies inflammatoires varices montre que le gene IBDl a un 
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role essentiel dans le processus inflammatoire normal et pathologique, Cette 
invention foumit de nouvelles voies de comprehension et de recherche dans le 
domaine de la physiopathologie des processus inflammatoires normaux et 
pathologiques. Elle permet de ce fait d'envisager le developpement de nouvelles 
5 molecules pharmaceutiques regulant les voies effectrices contr61ees par IBDl et 
utiles dans le traitement des maladies inflammatoires et la regulation du processus 
inflammatoire en general 

Exemple 7 : bases d^un diagnostic biologique de susceptibilite a la maladie de 
10 Crohn 

Plus r6cemment, 457 patients independants atteints de la maladie de Crohn, 
159 patients independants atteints de rectocolite hemorragique et 103 temoins sains 
ont ete etudies a la recherche de mutations, Ce travail a permis de confirmer Jes 
mutations precedemment rapportees et d'identifier des mutations supplementaires 

1 5 rapportees sur la figure 4. Les mutations principales ont ensuite ete genotypees dans 
235 families atteintes de la maladie de Crohn. Ce travail plus recent est expos6 en 
utilisant comme reference la sequence prot^ique plus couite (1013 acides amines, 
voir exemple 5) mais la nomenclature anterieure des mutations est aisement deduite 
a partir de cette demifere en ajoutant 28 au chiffre indiquant la position des acides 

20 amines. 

Parmi les 5 mutations les plus frequences, la mutation conservative V928I 
(anciennement V956I) n'est pas significativement associee a Tune ou Tautre des 
maladies inflammatoires de Tintestin et ne semble done pas avoir de r61e important 
dans )a maladie. 

25 La mutation S241P (anciennement S269P) est en desequilibre de liaison 

avec les autres mutations principales et ne semble pas jouer par elle-meme un role 
important dans la susceptibilite aux maladies inflammatoires de Tintestin (donnees 
non montrees). 

A Tinverse, les 3 autres mutations R675W (anciennement R703W), G881R 
30 (anciennement G909R) et 980fs (anciennement L1008P*) sont significativement 
associees a la maladie de Crohn mais pas a la rectocolite hemorragique (cf infra). 
La localisation dans le LRR ou a sa proximite immediate des 3 mutations frequentes 
plaide tres fortement pour un mecanisme fonctionnel impliquant ce domaine 
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proteique, probablement par un defaut de regulation negative de NFkB par la 
proteine niut6e. Les autres mutations sent plus rares (figure 4). Ces mutations 
cumulees sent presentes chez 17% des sujets atteints de la maladie de Crohn contre 
respectivement 4 % at 5 % les sujets sains ou atteints de rectocolite hemorragique. 
5 Un grand nombre des mutations rares sont aussi localisees dans le LRR. 

Les etudes intrafamiliales des trois polymorphismes les plus frequents dans 
la maladie de Crohn montrent qu'ils sont tous trois associes a la maladie (tableau 5). 
Comme attendu, pour une mutation supposee tres deletere, le polymorphisme le 
plus fortement associe est la mutation tronquante. Ces trois polymorphismes sont 
10 associes de maniere independante a la maladie de Crohn puisqu'il n'a pas ete 
possible d'identifier sur 235 families des chromosomes porteurs de plus d'une de 
ces trois mutations. Le caractere independant de ces associations renforce 
consid6rablement I'hypothese que le gene IBDl est bien implique dans la 
predisposition genetique a la maladie de Crohn. 

15 

Tableau 5 : etude des 3 polymorphismes frequents de IBDl dans 235 families 
atteintes de la maladie de Crohn 



MUTATION 


VALEUR p DU TEST PDT 


R675W 


0.001 


G881R 


0,003 


980fs 


0,000006 



Les etudes de cas-temoin confiment cette association (tableau 6). lis 
20 montrent que les mutations les plus fr^quentes dans ia maladie de Crohn ne sont pas 
frequentes dans la rectocolite hemorragique. 

Tableau 6 : etude de cas-t6moin des 3 polymorphismes frequents de IBDl dans les 



maladies inflammatoires de Tintestin 



MUTATION 


NBDE 
CHROMOSOME 
SETUDIES 


FREQtlENCE 
DEL' ALLELE A 
RISQUE R67SW 


FREQUENCE 
DEL' ALLELE A 
RISQUE G881R 


FREQUENCE 
DEL'ALLELEA 
RISQUE 9801s 


TOTAL 
ALLELES A 
RISQUE 


T^moins sains 


206 


0,04 


0,01 


0,02 


0,07 


Rectocolite H. 


318 


0,03 


0,00 


0,01 


0,05 
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M Crohn 


936 


0.11 


0,06 


0,12 


0,29 



L' etude de I'effet dose de ces mutations montre que les sujets porteurs d'une 
mutation a Tetat homozygote ou heterozygote composite presentent un bien plu 
grand risque de developper la maladie que les sujets non porteurs ou heterozygotes 
5 pour ces mutations (tableau 7). 



Tableau 7 : risque relatif et absolu de la maladie de Crohn attribuable e n fonction du 
genotype de IBDl 

Dans la population generate, un risque de la maladie de Crohn de 0,001 a ete 
10 pris comme reference et les mutations ont ete supposees en equilibre de Hardy- 
Weinberg. 



DISTRIBUTION 


GENOTYPE 


AUCUN VARIANT 


SIMPLE 
HETEROZyCOTE 


HOMOZYGOTE 


HETEROZYGOTE 
COMPOSITE 


Sains 


88 


15 


0 


0 


Rectocolite H 


145 


13 


1 


0 


M Crohn 


267 


133 


28 


40 


Risque attribuable 

deMC: 
Risque relatif 
Risque absolu 


1 

0,0007 


3 

0,002 


38 
0,03 


44 
0,03 



Les travaux cites ci-dessus confirment les donnfes prelimindres anterieures 
et apportent les bases detaill6es d'un diagnostic biolo^que de la maladie de Crohn 
15 par Tetude des variants de IBDL En eflFet, ce travail : 

1) d^finit les mutations dont la frequence est superieure a 0,001 dans une 
population caucasienne melangee, 

2) d6fmit la fr^uence des mutations observees et permet de definir 3 
mutations principales associees a la maladie de Crohn. Ainsi, il est 

20 possible, grace a ce travail, de definir une strategic d'6tude du gene pour 

la recherche de variants morbides a savoir : premierement typage des 3 
mutations principales, deuxiemement recherche de mutations dans les 7 
demiers exons, troisiemement recherche d'autres variants de sequence. 
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3) deiSnit les modalites pratiques de recherche de ces mutations en 
signalant leur position et leur nature. En effet, il est ensuite aise a 
I'homme du mdlier de mettre au point des methodes de typage et de 
sequenfage selon son expertise personnelle. On peut citer en particulier 

5 la possibilite de faire les genotypages des 3 mutations principales par 

PGR suivie de digestion enzymatique et electrophorese, etude des profils 
de migration par dHPLC, DGGE ou SSCP, oligoligation, 
microsequen9age, etc. 

4) demontre Tindependance des mutations les plus frequentes qui ne sont 
10 pas observees sur le meme chromosome dans cette population etendue et 

variee, Cette information permet de classer de fafon fiable les sujets en 
h6terozygotes composites (ayant deux mutations) comme porteur a une 
double dose de variations intrageniques. 

5) demontre que la plus grande proportion des mutations n'entraine qu'un 
15 effet nul ou minime sur le risque de rectocolite hemorragique. Ce 

resultat permet d'envisager d'aider le clinicien dans le diagnostic 
diff6rentiel entre ces deux maladies. En effet, dans environ 10 % des cas, 
les maladies inflammatoires de Tintestin restent inclassees malgre les 
examens biologiques, radiologiques et endoscopiques. 
20 6) defmit un risque relatif et absolu de la maladie pour les genotypes les 

plus frequents. Ce resultat pose les bases d'un diagnostic predictif 
potentiellement utile dans une demarche de suivi ou d' intervention 
preventive dans les populations k risque, en particulier, les apparentes de 
malades. 

25 7) demontre I'existence d'un effet dose pour le gene IBDl et confirme le 

caractere en partie recessif de la predisposition genetique a la maladie de 
Crohn. II permet done de poser les bases d'un conseil genetique et d'un 
diagnostic pr6clinique intrafamilial. 
Notons enfm qu'une mutation supplementaire du domaine NBD a ete isolee 
30 dans une deuxieme famille porteuse d'un syndrome de Blau. La rarete des deux 
evenements dans 2 families differentes suffit i confirmer Timplication de ce gene 
dans le syndrome de Blau et dans les maladies granulomateuses en generale. 
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L'ensemble de ces donn^es apporte un outil diagnostique directement 
applicable et utile au praticien dans sa pratique quotidienne. 

« 4c 4c 4e « 4f 

5 

Le g^ne IBDlprox, situe dans la region promotrice de IBDl, et dont la 
sequence partielle est d^voilee dans la presente invention, peut lui aussi avoir un 
r61e important dans la regulation de Fapoptose cellulaire et du processus 
inflammatoire, comme suggere par son expression differentielle dans les cellules 

10 matures du systeme immunitaire. La forte association rapportee dans ce travail entre 
le marqueur de poiymorphisme ctg35ExC (situe dans la region transcrite du gene) et 
la maladie de Crohn, plaide aussi tres fortement en faveur de cette hypothese. 

Les maladies inflammatoires de I'intestin sont des maladies gen^tiques 
complexes pour lesquelles, a ce jour, aucun gene de susceptibilite n'avait ete 

15 identifie avec certitude. L'invention a permis de Tidentification du premier gene de 
susceptibilite a la maladie de Crohn, par une demarche de clonage positionnel (ou 
genetique reverse). II s'agit la de la premiere localisation genetique obtenue par une 
telle approche pour une maladie genetique complexe, ce qui demontre son utilite et 
sa faisabilite, au moins dans certains cas dans les maladies genetiques complexes. 

20 La presente invention concerne aussi un acide nucleique purifie ou isole 

caracterise en ce qu'il code pour un polypeptide possedant un fragment continu d*au 
moins 200 acides amines d'une proteine choisie parmi SEQ ID 2 et SEQ ID W 
5. 
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Revendications 

1. Acide nucleique purifie ou isole, caracterise en ce qu'il comprend une 
sequence nucleique choisie dans le groupe de sequences suivantes : 

5 a) SEQrDN^],SEQIDN°3,SEQ]DN°4etSEQIDN°6; 

b) la sequence d'un fragment d'au moins 15 nucleotides consecutifs 
d'une sequence choisie parmi SEQ ID N° 1, SEQ JD W 3, SEQ 
IDNMou SEQIDN^6; 

c) une sequence nucleique presentant un pourcentage d'identite 
10 d'au moins 80 %, apres alignement optimal avec une sequence 

defmie en a) ou b) ; 

d) une sequence nucleique s'hybridant dans des conditions de forte 
stringence avec une sequence nucleique definie en a) ou b) ; 

e) la sequence complementaire ou la sequence d'ARN 
1 5 correspondant a une sequence telle que definie en a), b), c) ou d). 

2. Acide nucleique purifie ou isole selon la revendication 1, caracterise en 
ce qu'il comprend ou est constitue d'une sequence choisie parmi SEQ E) N"^ I et 
SEQ ED N° 4, la sequence complementaire ou la sequence d'ARN correspondant a 

20 une de ces sequences. 

3. Acide nucleique purifi6 ou isol6 caract6ris6 en ce qu'il code pour un 
polypeptide poss^dant un fragment continu d*au moins 200 acides amines d'une 
proteine choisie parmi SEQ ID N° 2 et SEQ ID N** 5. 

25 

4. Polypeptide isole caracterise en ce qu*il comprend un polypeptide choisi 

parmi : 

a) un polypeptide correspondant a SEQ ID N** 2 ou SEQ ID N** 5 ; 

b) un polypeptide variant d'un polypeptide de sequence definie en 
30 a); 

c) un polypeptide homologue a un polypeptide defini en a) ou b), 
cotnportant au moins 80 % d'homologie avec ledit polypeptide 
dea); 
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d) un fragment d*au moins 15 acides amines consecutifs d'un 
polypeptide defmi en a), b) ou c) ; 

e) un fragment biologiquement actif d'un polypeptide defmi en a), 
b) ou c). 

5 

5. Polypeptide selon la revendication 4, caracterise en ce qu'il est constitue 
d*une sequence choisie parmi SEQ ID W 2, SEQ E) N° 5 ou une sequence 
possedant au moins 80 % d'homologie avec Tune de ces sequences apres 
alignement optimal. 

10 

6. Vecteur de clonage et/ou d'expression comprenant un acide nucleique 
selon Tune des revendications 1 a 3 ou codant pour un polypeptide selon Tune des 
revendications 4 et 5. 

15 7. Cellule hote caracterisee en ce qu'elle est transformee par un vecteur 

selon la revendication 6. 

8. Animal, excepte Thomme, caracterise en ce qu'il comprend une cellule 
selon la revendication 7. 

20 

9. Utilisation d'une sequence d'acide nucl6ique selon Tune des 
revendications 1 a 3 en tant que sonde ou amorce, pour la detection et/ou 
Pamplification de sequences d'acide nucleique. 

25 10. Utilisation in vitro d'un acide nucleique selon Tune des revendications 1 

a 3 comme oligonucleotide sens ou antisens. 

11. Utilisation d'une sequence d'acide nucleique selon Tune des 
revendications 1 a 3 pour la production d'un polypeptide recombinant. 

30 

12. Proced6 d*obtention d'un polypeptide recombinant caracttoe en ce que 
Ton cultive une cellule selon la revendication 7 dans des conditions permettant 
Texpression dudit polypeptide et que Ton recupere ledit polypeptide recombinant. 
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13. Polypeptide recombinant caract^rise en ce qu'il est obtenu par un 
precede selon la revendication 12. 

5 14. Anticorps monoclonal ou polyclonal caracterise en ce qu'il lie 

selectivement un polypeptide selon Tune des revendications 4, 5 ou 13. 

15. Precede de detection d'un polypeptide selon Tune des revendications 4, 
5 ou 13, caracterise en ce qu'il comprend les etapes suivantes : 

10 a) mise en contact d'un echantillon biologique avec un anticorps 

selon la revendication 14 ; 
b) mise en evidence du complexe antigene-anticorps forme. 

16. Trousse de reactifs pour la mise en oeuvre d'un precede selon la 
1 5 revendication 15, caracterisee en ce qu'elle comprend : 

a) un anticorps monoclonal ou polyclonal selon la revendication 
14; 

b) eventuellement des reactifs pour la constitution d'un milieu 
propice a la reaction immunologique ; 

20 c) les reactifs permettant la detection du complexe antigene- 

anticorps produit lors de la reaction immunologique. 

17. M6thode de diagnostic et/ou d 'evaluation pronostique d'une maladie 
inflammatoire et/ou immune ou d'un cancer caracterisee en ce qu'on determine a 

25 partir d'un prelevement biologique d'un patient la presence d'au moins une 
mutation, et/ou une alteration d'expression du gene correspondant a SEQ JD ti° 1, 
SEQ ID W 3, SEQ ID NM ou SEQ ID 6 par I'analyse de tout ou partie d'une 
sequence nucl^ique correspondant audit gene. 

30 18. Puce a ADN caract6ris6e en ce qu'elle contient une sequence nucleique 

selon Tune des revendications 1 d 3. 
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19. Puce a proteines caracterisee en ce qu'elle contient un polypeptide selon 
Tune des revendications 4, 5 ou 13, ou un anticorps selon la revendication 14. 

20. Precede de detection et/ou de dosage d'un acide nucleique selon Tune 
6 des revendications 1 k 3 dans un echantillon biologique, caracterise en ce qu'il 

comprend les etapes suivantes : 

a) mise en contact d'un polynucleotide selon Tune des 
revendications 1 a 3, marque ; 

b) detection et/ou dosage de Thybride forme entre ledit 
1 0 polynucleotide et Pacide nucleique de 1 'echantillon biologique. 

21. Precede de detection et/ou de dosage d'un acide nucleique selon Tune 
des revendication? 1 a 3 dans un echantillon biologique, caracterise en ce qu'il 
comprend une etape d'amplification des acides nucleiques dudit echantillon 

15 biologique a Taide d'amorces choisies parmi les acides nucleiques selon Tune des 
revendications 1 a 2. 

22. Precede de criblage de composes capables de se fixer a un polypeptide 
de sequence SEQ ID N*^ 2 ou SEQ ID N° 5, caracterise en ce qu'il comprend les 

20 etapes de mise en contact d'un polypeptide selon Tune des revendications 4, 5 ou 
13, d'une cellule selon la revendication 7, ou d'un mammifere selon la 
revendication 8, avec un compos6 candidat et de detection de la formation d'un 
complexe entre ledit compose candidat et ledit polypeptide. 

25 23. Proced6 de criblage de composes capables d'interagir in vitro ou in vivo 

avec un acide nucleique. selon Tune des revendications 1 a 3, caracterise en ce qu'il 
comprend les etapes de mise en contact d'un acide nucl6ique selon Tune des 
revendications 1 a 3, d'une cellule selon la revendication 7, ou d'un mammifere 
selon la revendication 8, avec un compose candidat et de detection de la formation 

30 d'un complexe entre ledit compose candidat et ledit acide nucleique 

24. Compose caracterise en ce qu'il est choisi parmi 

a) un acide nucleique selon I'une des revendications 1 a 3 ; 
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b) un polypeptide selon Tune des revendications 4, 5 ou 13 ; 

c) un vecteur selon la revendication 6 ; 

d) une cellule selon la revendication 7 ; et 

e) un anticorps selon la revendication 14 ; 
5 a titre de medicament. 

25. Compose selon la revendication 24, pour la prevention et/ou le 
traitement d'une maladie inflammatoire et/ou immune ou d'un cancer associe a la 
presence d*au moins une mutation du gene correspondant a SEQ ID 1 ou SEQ 
10 IDNM. 
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LISTE DE SEQUENCES 



<110> Fondation Jean Dausset - CEPH 



<120> Genes iinpliqu6s dans les maladies inflainmatoires de 
I'intestin et leur utilisation 

<130> D18702 
<160> 90 

<170> Patentin Ver. 2.1 



<210> 1 
<211> 4322 
<212> ADN 

<213> Homo sapiens 

<220> 

<221> CDS 

<222> (1) (3123) 



<400> 1 

atg gag aag aga agg ggt eta acc att gag tgc tgg ggc ccc caa agt 

Met Glu Lys Arg Arg Gly Leu Thr lie Glu Cys Trp Gly Pro Gin Ser 
15 10 15 

ccc tea ctg acc ttg ttc tec tec cea ggt tgt gaa atg tgc teg cag 
Pro Ser Leu Thr Leu Phe Ser Ser Pro Gly Cys Glu Met Cys Ser Gin 
20 25 30 



ggg tec ctg gaa ggc ttc gag agt gtc etg gac tgg ctg ctg tec tgg 
Gly Ser Leu Glu Gly Phe Glu Ser Val Leu Asp Trp Leu Leu Ser Trp 
50 55 60 



48 



96 



gag get ttt cag gca cag agg age cag ctg gtc gag ctg ctg gtc tea 144 
Glu Ala Phe Gin Ala Gin Arg Ser Gin Leu Val Glu Leu Leu Val Ser 
35 40 45 



192 



gag gtc etc tec tgg gag gac tac gag ggc ttc cac etc ctg ggc cag 240 
Glu Val Leu Ser Trp Glu Asp Tyr Glu Gly Phe His Leu Leu Gly Gin 
65 70 75 80 

cct etc tec cac ttg gee agg cgc ctt ptg gac acc. gtc tgg aat aag 288 
Pro Leu Ser His Leu Ala Arg Arg Leu Leu Asp Thr Val Trp Asn Lys 
85 90. 95 

ggt act tgg gee tgt cag aag etc ate gcg get gee caa gaa gee cag 336 
Gly Thr Trp Ala Cys. Gin Lys Leu lie Ala Ala Ala Gin Glu Ala Gin 
100 105 110 

gcc gac age 'cag tec ccc aag ctg cat ggc tgc tgg gac ccc cac teg 384 
Ala Asp Ser Gin Ser Pro Lys Leu His Gly Cys Trp Asp Pro His Ser 
115 ' 120 125 

etc cac cca gcc cga gac ctg cag agt cac egg cea- gee att gtc agg 432 
Leu His Pro Ala Arg Asp Leu .Gin Ser His Arg Pro Ala. He Val Arg 
♦ 130 135 140 

•agg etc cac age cat .gtg gag aac atg ctg gac ctg gca tgg gag egg 480 
Arg Leu His Ser His Val Glu Asn Met Leu Asp Leu Ala Trp Glu Arg 
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ggt ttc gtc age cag tat gaa tgt gat gaa ate agg ttg ccg ate ttc 528 
Gly Phe Val Ser Gin Tyr Glu Cys Asp Glu lie Arg Leu Pro lie Phe 
165 no 175 

aca ccg tec cag agg gca aga agg ctg ctt gat ctt gcc acg gtg aaa 576 
Thr Pro Ser Gin Arg Ala Arg Arg Leu Leu Asp Leu Ala Thr Val Lys 
180 185 190 

gcg aat gga ttg get gee ttc ett eta caa cat gtt cag gaa tta cca 624 
Ala Asn Gly Leu Ala Ala Phe Leu Leu Gin His Val Gin Glu Leu Pro 
195 200 205 

gtc cca ttg gcc ctg cct ttg gaa get gcc aca tge aag aag tat atg 672 
Val Pro Leu Ala Leu Pro Leu Glu Ala Ala Thr Cys Lys Lys Tyr Met 

210- 215 220 

gcc aag ctg agg aec acg gtg tet get cag tct cgc ttc etc agt acc 720 
Ala Lys Leu Arg Thr Thr Val Ser Ala Gin Ser Arg Phe Leu Ser Thr 
225 230 235 240 

tat gat gga gca gag acg etc tgc ctg gag gac ata tac aca gag aat 768 
Tyr Asp Gly Ala Glu Thr Leu Cys Leu Glu Asp lie Tyr Thr Glu Asn 
245 250 255 

gtc ctg gag gtc tgg gca gat gtg ggc atg get gga tec ccg cag aag 816 
Val Leu Glu Val Trp Ala Asp Val Gly Met Ala Gly Ser Pro Gin Lys 
260 265 270 

age cca gcc acc ctg ggc ctg gag gag etc ttc age acc cct ggc cac 864 
Ser Pro Ala Thr Leu Gly Leu Glu Glu Leu Phe Ser Thr Pro Gly His 
275 280 285 

etc aat gac gat gcg gac act gtg ctg gtg gtg ggt gag gcg ggc agt 912 
Leu Asn Asp Asp Ala Asp Thr Val Leu Val Val Gly Glu Ala Gly Ser 
290 295 300 

ggc aag age acg etc ctg cag egg ctg cac ttg ctg tgg get gca ggg 960 
Gly Lys Ser Thr Leu Leu Gin Arg Leu His Leu Leu Trp Ala Ala Gly 
305 310 315 320 

caa gac ttc cag gaa ttt etc ttt gtc ttc cca ttc age tgc egg cag 1008 
Gin Asp Phe Gin Glu Phe Leu Phe Val Phe Pro Phe Ser Cys Arg Gin 
325 330 335 

ctg cag tgc atg gcc aaa cca etc tct gtg egg act eta etc ttt gag 1056 
Leu Gin Cys Met Ala Lys Pro Leu Ser Val Arg Thr Leu Leu Phe Glu 
340 345 350 

cac tgc tgt tgg cct gat gtt ggt caa gaa gac ate ttc cag tta etc 1104 
His Cys Cys Trp Pro Asp Val Gly Gin Glu Asp lie Phe. Gin Leu Leu 
355 360 365 

ctt gac cac cct gac cgt gtc ctg tta acc ttt gat ggc ttt gac gag 1152 ■ 
Leu Asp His Pro Asp. Arg Val Leu Leu Thr Phe Asp Gly Phe Asp Glu 
370 375 380 

ttc aag ttc agg ttc. acg gat cgt gaa cgc cac tgc tec ccg acc gac ' 1200 
Phe Lys Phe Arg Phe Thr Asp Arg Glu Arg His. Cys Ser Pro Thr Asp ' 
.385 .390 395 40.0 
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ccc acc tct gtc cag acc ctg etc ttc aac ctt ctg cag ggc aac ctg 1248 
Pro Thr Ser Val Gin Thr Leu Leu Phe Asn Leu Leu Gin Gly Asn Leu 
405 410 415 

ctg aag aat gcc cgc aag gtg gtg acc age cgt ccg gcc get gtg teg 1296 
Leu Lys Asn Ala Arg Lys Val Val Thr Ser Arg Pro Ala Ala Val Ser 
420 425 430 

gcg ttc etc agg aag tac ate cgc acc gag ttc aac etc aag ggc ttc 1344 
Ala Phe Leu Arg Lys Tyr lie Arg Thr Glu Phe Asn Leu Lys Gly Phe 
435 440 445 

tct gaa cag ggc ate gag ctg tac ctg agg aag cgt cat cat gag ccc 1392 
Ser Glu Gin Gly lie Glu Leu Tyr Leu Arg Lys Arg His His Glu Pro 
450 455 460 

ggg gtg gcg gac cgc etc ate cgc ctg etc caa gag acc tea gcc ctg 1440 
Gly Val Ala Asp Arg Leu He Arg Leu Leu Gin Glu Thr Ser Ala Leu 
465 470 475 480 

cac ggt ttg tgc cac ctg cct gtc ttc tea tgg atg gtg tec aaa tgc 1488 
His Gly Leu Cys His Leu Pro Val Phe Ser Trp Met Val Ser Lys Cys 
485 490 495 

cac cag gaa ctg ttg ctg cag gag ggg ggg tec cca aag acc act aca 1536 
His Gin Glu Leu Leu Leu Gin Glu Gly Gly Ser Pro Lys Thr Thr Thr 
500 505 510 

gat atg tac ctg ctg att ctg cag cat ttt ctg ctg cat gcc acc ccc 158.4 
Asp Met Tyr Leu Leu He Leu Gin His Phe Leu Leu His Ala Thr Pro 
515 520 525 

cca gac tea get tec caa ggt ctg gga ccc agt ctt ctt egg ggc cgc 1632 
Pro Asp Ser Ala Ser Gin Gly Leu Gly Pro Ser Leu Leu Arg Gly Arg 
530 535 540 

etc ccc acc etc ctg cac ctg ggc aga ctg get ctg tgg ggc ctg ggc 1680 
Leu Pro Thr Leu Leu His Leu Gly Arg Leu Ala Leu Trp Gly Leu Gly 
545 550 555 560 

atg tgc tgc tac gtg ttc tea gee bag cag etc cag gea gea cag gtc 1728 
Met Cys Cys Tyr Val Phe Ser Ala Gin Gin Leu Gin Ala Ala Girt. Val 
565 570 575 ' 

age cct gat gac att tct ctt ggc ttc ctg gtg cgt gcc aaa ggt gtc 1776 
Ser Pro TVsp Asp He Ser Leu Gly Phe Leu Val Arg Ala Lys Gly Val 
580 585 ' 590 

gtg cca ggg agt aeg gcg .ccc ctg gaa ttc ctt cac ate act ttc cag 1824 
.Val Pro Gly, Ser Thr Ala Pro Leu Glu Phe Leu His He Thr Phe Gin 
5^5 600 605 

tgc ttc ttt gcc gcg ttc tac ctg gea etc agt get gat gtg cca cca 1872 
Cys Phe Phe Ala Ala Phe Tyr Leu Ala Leu Ser Ala Asp Val Pro Pro 
'eiO* ■ ■ 615 . 620 

' get ttg etc aga cac etc ttc aat tgt ggc agg cca ggc aac tea cca 1920 
Ala Leu Leu Arg* His .Leu Phe Asn Cys Gly Arg Pro Gly Asn Ser Pro 
625 630 635 640 
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atg gcc agg etc ctg ccc acg atg tgc ate cag gcc teg gag gga aag 1968 

Met Ala Arg Leu Leu Pro Thr Met Cys He Gin Ala Ser Glu Gly Lys 

irrtn £CC: 



645 650 655 

gac age age gtg gca get ttg etg cag aag gcc gag ceg cac aac ctt 

Asp Ser Ser Val Ala Ala Leu Leu Gin Lys Ala Glu Pro His Asn Leu 

660 665 670 

cag ate aca gca gcc ttc ctg gca ggg ctg ttg tec egg gag cac tgg 

Gin He Thr Ala Ala Phe Leu Ala Gly Leu Leu Ser Arg Glu His Trp 

675 680 685 



2016 



2064 



ggc ctg ctg get gag tgc cag aca tct gag aag gcc ctg etc egg cgc 2112 
Gly Leu Leu Ala Glu Cys Gin Thr Ser Glu Lys Ala Leu Leu Arg Arg 
690 695 700 

cag gcc tgt gcc cgc tgg tgt ctg gcc cgc age etc cgc aag cac ttc 2160 
Gin Ala Cys Ala Arg Trp Cys Leu Ala Arg Ser Leu Arg Lys His Phe 
705 710 715 720 

cac tec ate ccg cea get gca ceg ggt gag gcc aag age gtg cat gee 2208 
His Ser He Pro Pro Ala Ala Pro Gly Glu Ala Lys Ser Val His Ala 
725 730 735 

atg ccc ggg ttc ate tgg etc ate egg age ctg tac gag atg cag gag 2256 
Met Pro Gly Phe He Trp Leu He Arg Ser Leu Tyr Glu Met Gin Glu 
740 745 750 

gag egg ctg get egg aag get gca cgt ggc ctg aat gtt ggg cac etc 2304 
Glu Arg Leu Ala Arg Lys Ala Ala Arg Gly Leu Asn Val Gly His Leu 
755 760 765 

aag ttg aca ttt tgc agt gtg ggc ccc act gag tgt get gcc ctg gcc 2352 
Lys Leu Thr Phe Cys Ser Val Gly Pro Thr Glu Cys Ala Ala Leu Ala 
770 775 780 

ttt gtg ctg cag cac ctt egg egg ccc gtg gee ctg cag ctg gac tac 2400 
Phe Val Leu Gin His Leu Arg Arg Pro Val Ala Leu Gin Leu Asp Tyr 
785 790 795 800 

aac tct gtg ggt gac att ggc gtg gag cag ctg ctg ect tgc ctt ggt 244 8 
Asn Ser Val Gly Asp He Gly Val Glu Gin Leu Leu Pro Cys Leu Gly 
805 810 815 

gtc tgc aag get ctg tat ttg cgc gat aac aat ate tea gac cga ggc 2496 
Val Cys Lys Ala Leu Tyr Leu Arg Asp Asn Asn He Ser Asp .Arg Gly 
820 825 830 

ate tgc aag etc att gaa tgt get ctt cac tgc gag caa ttg cag aag 2544 
He Cys Lys Leu He Glu Cys Ala Leu His Cys Glu Gin Leu Gin Lys 
835 • 840 • 845 

tta get eta -ttc aac aac aaa ttg act gac ggc tgt gca cac tec atg 2592 
Leu Ala Leu Phe Asn Asn Lys Leu Thr Asp Gly Cys Ala His Ser Met 
850 855 • 860 

get aag etc ctt gca tgc agg cag aac ttc ttg gca ttg agg ctg ggg 2640 
Ala Lys Leu Leu. Ala Cys Arg Gin A^n Phe Leu Ala Leu Arg Leu Gly 
865 870 875 880 

' aat aac tac ate act gcc gcg gga gcc caa gtg ctg gcc gag ggg etc 2688 
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Asn Asn Tyr He Thr Ala Ala Gly Ala Gin Val Leu Ala Glu Gly Leu 
885 890 895 



cga ggc aac acc tec ttg cag ttc ctg gga ttc tgg ggc aac aga gtg 
Arg Gly Asn Thr Ser Leu Gin Phe Leu Gly Phe Trp Gly Asn Arg Val 
900 905 910 



2736 



ggt gac gag ggg gcc cag gcc ctg get gaa gee ttg ggt gat cac cag 
Gly Asp Glu Gly Ala Gin Ala Leu Ala Glu Ala Leu Gly Asp His Gin 
915 920 925 



2784 



age ttg agg tgg etc age ctg gtg ggg aae aac att ggc agt gtg ggt 
Ser Leu Arg Trp Leu Ser Leu Val Gly Asn Asn He Gly Ser Val Gly 
930 935 940 



2832 



gcc caa gcc ttg gca ctg atg ctg gca aag aac gtc atg eta gaa gaa 
Ala Gin Ala Leu Ala Leu Met Leu Ala Lys Asn Val Met Leu Glu Glu 
945 950 955 960 



2880 



etc tgc ctg gag gag aac cat etc cag gat gaa ggt gta tgt tct etc 
Leu Cys Leu Glu Glu Asn His Leu Gin Asp Glu Gly Val Cys Ser Leu 
965 970 975 



2928 



gca gaa gga ctg aag aaa aat tea agt ttg aaa ate ctg aag ttg tec 
Ala Glu Gly Leu Lys Lys Asn Ser Ser Leu Lys He Leu Lys Leu Ser 
980 985 990 



2976 



aat aac tgc ate ace tac eta ggg gca gaa gcc etc ctg cag gcc ett 
Asn Asn Cys He Thr Tyr Leu Gly Ala Glu Ala Leu Leu Gin Ala Leu 
995 1000 1005 



3024 



gaa agg aat gac ace ate ctg gaa gte tgg etc cga ggg aac act ttc 
Glu Arg Asn Asp Thr He Leu Glu Val Trp Leu Arg Gly Asn Thr Phe 
1010 1015 1020 



3072 



tct eta gag gag gtt gac aag etc ggc tgc agg gac acc aga etc ttg 
Ser Leu Glu Glu Val Asp Lys Leu Gly Cys Arg Asp Thr Arg Leu Leu 
1025 1030 1035 1040 



3120 



ctt tgaagtctcc gggaggatgt tcgtctcagt ttgtttgtga caggctgtga 



3173 



Leu 












gtttgggccc 


cagaggctgg 


gtgacatgtg 


ttggcagcct 


ctteaaaatg 


agccctgtcc 3233 


tgcctaaggc 


tgaacttgtt 


ttctgggaac 


aecataggtc 


acctttattc 


tggcagagga 3293 


gggagcatca 


gtgccctcca 


ggatagactt 


ttcecaagcc 


tacttttgcc 


attgacttct 3353 


teecaagatt 


eaatcccagg 


atgtacaagg 


aeagccccec 


tccatagtat 


gggaetggcc 3413 


tetgetgate 


etcccaggct 


tccgtgtggg 


tcagtggggc 


eeatggatgt 


gettgttaae 3473 


tgagtgcctt 


ttggtggaga 


ggcccggccc 


aeataattca 


ggaagcagct 


ttececatgt 3533 


ctcgactcat 


ecatccaggc 


cattcccqgt 


ctctggttcc 


teccctcctc 


etggaetcct 3593 


gcacacgctc 


cttcctctga 


ggctgaaatt 


cagaatatta 


gtgacetcag 


ctttgatatt 3653 


teacttacag 


caeccccaac 


ectggcaccc 


agggtgggaa 


■gggctacaec 


ttagcctgcc 3713 


ctcctttccg 


gtgtttaaga 


catttttgga 


aggggacacg 


tgacagccgt 


ttgttcccca 3773 
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agacattcta ggtttgcaag aaaaatatga ccacactcca gctgggatca catgtggact 3833 
tttatttcca gtgaaatcag ttactcttca gttaagcctt tggaaacagc tcgactttaa 3893 
aaagctccaa atgcagcttt aaaaaattaa tctgggccag aatttcaaac ggcctcacta 3953 
ggcttctggt tgatgcctgt gaactgaact ctgacaacag acttctgaaa tagacccaca 4013 
agaggcagtt ccatttcatt tgtgccagaa tgctttagga tgtacagtta tggattgaaa 4073 
gtttacagga aaaaaaatta ggccgttcct tcaaagcaaa tgtcttcctg gattattcaa 4133 
aatgatgtat gttgaagcct ttgtaaatfcg tcagatgctg tgcaaatgtt attattttaa 4193 
acattatgat gtgtgaaaac tggttaatat ttataggtca ctttgtttta ctgtcttaag 4253 
tttatactct tatagacaac atggccgtga actttatgct gtaaataatc agaggggaat 4313 
aaactgttg 4322 



<210> 2 
<211> 1041 
<212> PRT 

<213> Homo sapiens 

<400> 2 

Met Glu Iiys Arg Arg Gly Leu Thr He Glu Cys Trp Gly Pro Gin Ser 
15 10 15 

Pro Ser Leu Thr Leu Phe Ser Ser Pro Gly Cys Glu Met Cys Ser Gin 
20 25 30 

Glu Ala Phe Gin Ala Gin Arg Ser Gin Leu Val Glu Leu Leu Val Ser 
35 40 45 

Gly Ser Leu Glu Gly Phe Glu Ser Val Leu Asp Trp Leu Leu Ser Trp 
50 55 60 

Glu Val Leu Ser Trp Glu Asp Tyr Glu Gly Phe His Leu Leu Gly Gin 
65 • 70 75 80 

. Pro Leu Ser His Leu Ala Arg Arg Leu Leu Asp Thr Val Trp Asn Lys 
85 90 95 

Gly Thr Trp Ala Cys Gin Lys Leu He Ala Ala Ala Gin Glu Ala Gin 
100 105 110 

Ala Asp Ser Gin Ser Pro Lys. Leu His Gly Cys Trp Asp Pro His Ser 
115 120 125 

Leu His Pro Ala Arg Asp Leu Gin Ser His Arg Pro Ala He Val Arg 
130 135 140 

Arg Leu His Ser His Val Glu Asn. Met Leu Asp Leu Ala Trp Glu Arg 
145 150 ■ 155 160 

Gly Phe Val Ser Gin Tyr Glu Cys Asp Glu He Arg Leu Pro He Phe 
165 170 175 
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Thr Pro Ser Gin Arg Ala Arg Arg Leu Leu Asp Leu Ala Thr Val Lys 
180 185 190 

Ala Asn Gly Leu Ala Ala Phe Leu Leu Gin His Val Gin Glu Leu Pro 

195 200 205 

Val Pro Leu Ala Leu Pro Leu Glu Ala Ala Thr Cys Lys Lys Tyr Met 
210 215 220 

Ala Lys Leu Arg Thr Thr Val Ser Ala Gin Ser Arg Phe Leu Ser Thr 
225 230 235 240 

Tyr Asp Gly Ala Glu Thr Leu Cys Leu Glu Asp lie Tyr Thr Glu Asn 

245 250 255 

Val Leu Glu Val Trp Ala Asp Val Gly Met Ala Gly Ser Pro Gin Lys 
260 265 270 

Ser Pro Ala Thr Leu Gly Leu Glu Glu Leu Phe Ser Thr Pro Gly His 
275 280 285 

Leu Asn Asp Asp Ala Asp Thr Val Leu Val Val Gly Glu Ala Gly Ser 
290 295 300 

Gly Lys Ser Thr Leu Leu Gin Arg Leu His Leu Leu Trp Ala Ala Gly 
305 310 315 320 

Gin 'Asp Phe Gin Glu Phe Leu Phe Val Phe Pro Phe Ser Cys Arg Gin 
325 330 335 

Leu Gin Cys Met Ala Lys Pro Leu Ser Val Arg Thr Leu Leu Phe Glu 
340 345 350 

His Cys Cys Trp Pro Asp Val Gly Gin Glu Asp He Phe Gin Leu Leu 
355 360 365 

Leu Asp His Pro Asp Arg Val Leu Leu Thr Phe Asp Gly Phe Asp Glu 
370 375 380 

Phe Lys Phe TVrg Phe Thr Asp Arg Glu Arg His Cys Ser Pro Thr Asp 
385 390 395 400 

Pro Thr Ser Val Gin Thr Leu Leu Phe Asn Leu Leu Gin Gly Asn Leu 
405 410 415 

Leu Lys Asn Ala Arg Lys Val Val Thr Ser Arg Pro Ala Ala Val Ser 
420 425 430 

Ala Phe Leu TVrg Lys Tyr He Arg Thr Glu Phe Asn Leu Lys Gly Phe 
435 440 445 

Ser Glu Gin Gly He Glu Leu Tyr Leu Arg Lys Arg His His Glu Pro 

450 * 455 . • 460 

Gly Val Ala Asp. Arg Leu He Arg Leu Leu Gin Glu Thr Ser Ala Leu 
465 470 475 ' 480- 

His Gly Leu Cys His Leu Pro Val Phe Ser Trp Met Val Ser Lys Cys 
. 485 490 495 

His Gin Glu Leu Leu Leu Gin Glu Gly Gly Ser Pro Lys Thr Thr Thr 
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505 



510 



Asp Met Tyr Leu Leu lie Leu Gin His Phe Leu Leu His Ala Thr Pro 
515 520 , 525 

Pro Asp Ser Ala Ser Gin Gly Leu Gly Pro Ser Leu Leu Arg Gly Arg 
530 535 540 

Leu Pro Thr Leu Leu His Leu Gly Arg Leu Ala Leu Trp Gly Leu Gly 
545 550 555 560 

Met Cys Cys Tyr Val Phe Ser Ala Gin Gin Leu Gin Ala Ala Gin Val 
565 570 575 

Ser Pro Asp Asp lie Ser Leu Gly Phe Leu Val Arg Ala Lys Gly Val 
580 585 590 

Val Pro Gly Ser Thr Ala Pro Leu Glu Phe Leu His lie Thr Phe Gin 
595 600 605 

Cys Phe Phe Ala Ala Phe Tyr Leu Ala Leu Ser Ala Asp Val Pro Pro 
610 615 620 

Ala Leu Leu Arg His Leu Phe Asn Cys Gly Arg Pro Gly Asn Ser Pro 
625 630 635 640 

Met Ala Arg Leu Leu Pro Thr Met Cys lie Gin Ala Ser Glu Gly Lys 

645 650 655 

Asp Ser Ser Val Ala Ala Leu Leu Gin Lys Ala Glu Pro His Asn Leu 
660 665 670 

Gin lie Thr Ala Ala Phe Leu Ala Gly Leu Leu Ser Arg Glu His Trp 
675 680 685 

Gly Leu Leu Ala Glu Cys Gin Thr Ser Glu Lys Ala Leu Leu Arg Arg 

690 695 700 

Gin Ala Cys Ala Arg Trp Cys Leu Ala Arg Ser Leu Arg Lys His Phe 
705 710 715 720 

His Ser He Pro Pro Ala Ala Pro Gly Glu Ala Lys Ser Val His Ala 
725 730 735 

Met Pro Gly Phe lie Trp Leu He Arg Ser Leu Tyr Glu Met Gin Glu 
740 745 • 750 

Glu Arg Leu Ala Arg Lys Ala Ala Arg Gly Leu hsn Val Gly His Leu 
755 760 • 765 

Lys • Leu Thr Phe Cys Ser Val Gly Pro Thr Glu Cys Ala Ala Leu Ala 
770* 775 780 

Phe Val Leu Gin- His Leu Arg Arg Pro Val Ala Leu Gin Leu Asp Tyr 
785 790 795 800 

Asn Ser Val Gly Asp He Gly Val Glu .Gin Leu Leu Pro Cys Leu Gly 



Val. Cys Lys Ala Leu Tyr Leu Arg Asp Asn Asn.* lie Ser Asp Arg Gly 



805 



810 



815 



820 



825 • 



- -830 
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lie Cys Lys Leu lie Glu Cys Ala Leu H±s Cys Glu Gin Leu Gin Lys 
835 840 845 

Leu Ala Leu Phe Asn Asn Lys Leu Thr Asp Gly Cys Ala His Ser Met 
850 855 860 

Ala Lys Leu Leu Ala Cys Arg Gin Asn Phe Leu Ala Leu Arg Leu Gly 
865 870 875 880 

Asn Asn Tyr He Thr Ala Ala Gly Ala Gin Val Leu Ala Glu Gly Leu 

885 890 895 

Arg Gly Asn Thr Ser Leu Gin Phe Leu Gly Phe Trp Gly Asn Arg Val 
900 905 910 

Gly Asp Glu Gly Ala Gin Ala Leu Ala Glu Ala Leu Gly Asp His Gin 
915 920 925 

Ser Leu Arg Trp Leu Ser Leu Val Gly Asn Asn He Gly Ser Val Gly 
930 935 940 

Ala Gin Ala Leu Ala Leu Wet Leu Ala Lys Asn Val Met Leu Glu Glu 
945 950 955 960 

Leu Cys Leu Glu Glu Asn His Leu Gin Asp Glu Gly Val Cys Ser Leu 
965 970 975 

Ala Glu Gly Leu Lys Lys Asn Ser Ser Leu Lys Xle Leu Lys Leu Ser 
980 985 990 

Asn Asn Cys He Thr Tyr Leu Gly Ala Glu Ala Leu Leu Gin Ala Leu 
995 1000 1005 

Glu Arg Asn Asp Thr He Leu Glu Val Trp Leu Arg Gly Asn Thr Phe 
1010 1015 1020 

Ser Leu Glu Glu Val Asp Lys Leu Gly Cys Arg Asp Thr Arg Leu Leu 
025 X030 1035 1040 

Leu 



<210> 3 

<211> 37443 

<212> ADN 

<213> Homo sapiens 

<220> 

<221> exon 

<222> (63) . . (106) 

<220> 

<221> exon 

<222> (3908) . . (4406) 

<220> 

<221> exon 

<222> (12307) (12412) 
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<220> 

<221> exon 

<222> (15010) . - (16825) 

<220> 

<221> exon 

<222> (21017) . . (21100) 
<220> 

<221> exon 

<222> (21321) (21404) 

<220> 

<221> exon 

<222> (24355) . . (24438) 
<220> 

<221> exon 

<222> (27052) . . (27135) 

<220> 

<221> exon 

<222> (27730) . . (27813) 
<220> 

<221> exon 

<222> (29917) (30000) 

<220> 

<221> exon 

<222> (34244) . . (34327) 
<220> 

<221> exon 

<222> (36123) . . (37443) 

<400> 3 

tcaccatata actggtattt aaagccacaa gagcaggtgg gctcatctag ggatggagtg 60 
atatggagaa gagaaggggt ctaaccattg agtgctgggg cccccagtgt taggaaccag 120 
ccaagaagac agaaagagtg aaaatcagag agttggggtg tcctggagga aatgaagaaa 180 
atgccccaaa gaggaaggag ggaacaaiata tgaccaatgc ccctggcaga gcaagcaggc 240 
tgagggctga ggattgagca atgggaggtc actggtgaca gtttcactgg agctggatgg 300 
ggaactagag ggaatgggag gggatgggag gacttgggga cagcagtaca ggcaacagac 360 
aagggggcct gctgtaaagg gagcagataa atgggattgg agccaaatga agaaggggag 420 
tgtcaagaga gtgctttact tttacaatgg agaattagag tgcattgtgc actggtgggg 480 
ggatttgatc tcttagggag agaacagtgt tagggaggga gaatgcagga tagctggggg 540 
agggtggggg gcttggcccc agcagagact caggacactt gggaagttga gcttccctgg 600 
gcttcccctc ctctcctgtc tgcaaggggt cagtgggctg agatttcagc acttaagcaa 660 
agcatttgct cttggcccca gagaaaccgg gctggctgtg gtctcaggaa ggaaggaggt 720 
gtccaggctc aggcctgggc ctgggtttca gggagggccc acgtgggtca ccccttgacc 780 
ctctctttca gcaaggaagt gatcctttct ctacatgggc ctcaccttgg ggaggacaat 840 
ggtgtctttg aagttgtagt aactgaagta gagatcaaaa ggcaatgcag atagactgac 900 
agatttcgcc tgaagagggg aagcccgacc aggtaataaa ggagtaagag gaaggatgtt 960 
aaggacaatt ttaggaaaca gataatgagt gaatattttt tctctctctt tcccaattta 1020 
aactgaagca ggagaaactg aagctagaca taatgattaa cttcccaagc tggtgagctt 1080 
cctgagctgg ttagtgagaa cagcactaag gccaggttct cctccccaga tgtttaagat 1140 
gagacaggac aatgcctgct cagagacagg gcctggctga attggccctc aggattctct 1200 
ctgctctgag gtttctggaa gaaggccagg gcagaggtgt ggtgatgtag ctgctgggag 1260 
gacagagctc cgagtcacgt ggcttgggcg ggcctcccct tcctggtgtc cacagaagcc 1320 
caacgtcact agctggggtg tgtatggctc acacgtaggc ' caggctgccc taggcttggt 1380 
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gtgcaaggga ggggccccta cttacttgtg gcctgtcccc tcgtgaatgt gtctcatgtc 1440 
cccagtgggg tttttcagtg agggtcatgg tctccaggat gcacaaggct ttgtgccaga 1500 
attgcttgga attgcctagt tctggaaggc tggttggcca actctggcct ccggcttttc 1560 

ctttgggaat ttcccttgaa ggtggggttg gtagacagat ccaggctcac cagtcctgtg 1620 
ccactgggct tttggcattc tgcacaaggc ctacccgcag atgccatgcc tgctccccca 1680 
gcctaatggg ctttgatggg ggaagagggt ggttcagcct ctcacgatga ggaggaaaga 1740 
gcaagtgtcc tcctcggaca ttctccgggt aagaggagca ggcattgtcc cgtcccagct 1800 
tgatcctcag ccttctttca tccttggccg cgacatgctc ccaggcctgg ggtcagatgg 1860 
ggagtgctga ctctgtttct gggctgtttt ctggggagaa tgggtcggcg ggtttttttc 1920 
cccaggacct gggcagggtc aatggtgggg gccgctgtcg catccttggc tggtgtttcc 1980 
acagctgaga accactccag ggccaagccc agagcttatt ctaccctttt ttgtcctctc 2040 
ttcccctgtc ctcggccacc ccaccctctt ggctcctctg cttagatgtg ggcacaagga 2100 
ggagaactcc ttggcctgag agaactacct tagatcctgg cttccagtgg cctctgcagg 2160 
ggggtacacc ctctctccca agcagccaga cacacaagta acctcattgc ctcagtttcc 2220 
ccatctgacc agcacagggc cccctgtgcc ccagcagcgt tctgagagat tggagctttc 2280 
tccttttgct taccttggct accgtatgag gacggataca gagtgttccc cccaccccca 2340 
gcccagggga tatttgattc atgaacattc cctcagtgtc tttgtggggg acaatgctgt 2400 
gccaggctca gggatgccag gacgagtaag acccaggctc ccacgtggcc caggcaggga 2460 
gagagacaca taaacaacca tcaggaaaga ggtaaaatcc ccaggccact tggcatctgc 2520 
tcccttgagt gtctgggaat gtccctgatt tataaaaaga agctgacggc cctctttgtt 2580 
gtccatgcct acaccctttc actttcgttt cttcggggca ctgcagcagc ccttgtccac 2640 
agaccccatg acaatcgcag aactgaccat gctgagagat tttcttggct gctcagggac 2700 
cctgccaggg cttgaagctc ctggagggtc acttgccctc aaattcccag aacgcacagc 2760 
aggtcactga tgatagcagt ggcagcagtc tgtgcacggt ggtttcgagg gcgtgggagg 2820 
gaggtgaggg ccctagggca agtgtgtgtg ggaagtgttg atgggggaca aggcaccaga 2880 
acgctcggaa acaacttagt ttgcaccgta atttttcact tcgcctagga caggaccttt 2940 
agagcaatat tctgagtcta ccccttggag tagcagtgtg caaaacacac agcacgggct 3000 
tggggccccc gtggggaacc caaatgtaag agttagagac atgcattccg gagtcataca 3060 
tggctcgtgt tgaaatcctg actctgcctg tctagctgtg acacatcgta caaatcactt 3120 
agcttcttgg tgcctcagtg tcttcctctg tagaatgggt agatcatagg cactacttca 3180 
gagtggctgg gagggttcag tgaattcctg caggagagca cttagaatgg cacttggtgt 3240 
gtagtttatg cttaattaat attagccgtt actgaaactg ctgtagcctg aatccagcca 3300 
gcatgaaaga gcccctctca ccctgcttcg aagagaatga attccctgat tgtttggaag 3360 
atctctctct ctctctctgt cttttttttt tttttttgag aaacggtctt gctctcttgc 3420 
ccaggctgga gcgcaatggt gccatcttgg ctcactgcaa cctctgcctc ccgggttcaa 3480 
gtgattctcc tgtctcagcc tcctgagtag ctgggattac aggcgctcgc caccacgcct 3540 
ggctaatttt tgtattttta gtagagacag cgtttcaccg tgttggccgg gctggtctag 3600 
cgctcctgat ctcaagtgac cttgggagat ctcttgctcc taatattacc tcaagccttt 3660 
ttaaacgttt taagccggag accaagcatg gatatgggag ttaggggtct tgatttaatt 3720 
cttggttgct tcaaactctg tggaaccttg aggtgtttct tgccttctct gggtctcaat 3780 
tttcacatct atatggtggg gagcttggat tgggtaatgt ctgaggctag aaccatggcc 3840 
aactcgggtt ctgctggggc tgacttgccc tggccttccc tgaccaccct gcatctggct 3900 
tctggagaag tccctcactg accttgttct cctccccagg ttgtgaaatg tgctcgcagg 3960 
aggcttttca ggcacagagg agccagctgg tcgagctgct ggtctcaggg tccctggaag 4.020 
gcttcgagag tgtcctggac tggctgctgt cctgggaggt cctctcctgg gaggactacg 4080 
agggcttcca cctcctgggc cagcctctct cccacttggc caggcgcctt ctggacaccg -4140 
tctggaataa gggtacttgg gcctgtcaga agctcatcgc ggctgcccaa gaagcccagg 4200 
ccgacagcca gtcccccaag ctgcatggct gctgggaccc ccactcgctc cacccagccc 4260 
gagacctgca gagtcaccgg ccagccattg tcaggaggct ccacagccat gtggagaaca 4320 
tgctggacct ggcatgggag cggggtttcg tcagccagta tgaatgtgat gaaatcaggt 4380 
tgccgatctt cacaccgtcc cagagggtga ggcactcctg gtgtgcatca cagagttctc 4440 
aggaaagggg tgcttagtca ccaagactga tttgtcctca tgaagtcagc ctgtggggta 4500 
acttggtccg tgggatttcc cctaaaaagg tagccaggca ggtaaaattt gctcttgact 4560 
cttggcagga aacatacaac tctttctttc ttcttttctt ttctttttct cactctgtta 4 620 
ccctggctag aatgcagtgg cacaatcata gctcactgta gccttgaatt cctgcgctca 4 680 
agtgatcttc tggccttaga gtagctggga ctacggctgc tgtaqcacca tgaacagcta 4740 
attttttttt tttcttttag agatggggtg ttgctatgtt gcccaggctg gtctccagct 4800 
cctggcttta agcaatcctc ccgccttggc ctcccaaact gttgggattg caggcatgag 4860 
ccactttgcc tggccaacag " aacacttctg ccgagaggaa gtgtgtggtg gccaggaact 4920 
cagattctgg agccagaatg gtgcaggctc aaggtcaacc ctgtgtgatc tcaggcttcc 4980 
ctatggagcc tctccagcct cagtctccct tgtttcagtt tcctcatcta .caaaacaatg 5040 
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ttaatagtca aatggtgcct atcctataag gctcttggga ggattcagtg agttaatttg 5100 
agtaatgctt aggatagtgt ctattaccac tggctgctat ttattatttc tgttatgagt 5160 
gatactctgt acttgtacac ttttatttct gtctgtttta aattaacagc acaacagacc 5220 
ataacactgc agtatattga atttatttta taattaacat agcatattat aaactaatat 5280 
agcttaaatg tttatgtagg atttctgaca tgaaattgca ttagatcata gatgttcaga 5340 
gttggtatat aacagcccct gagaatgtag taactcagca gagaccagaa ggtcagagaa 5400 
atgaccactg agtatttttg aaactctttt gttttcttcc aaatagtgat tcttagggct 5460 
cctgagaggc agatggaaca atcattaaca ttccacttta taaatcggga agttgagacc 5520 
aaggaaagta gtttgaataa gctcacagta gttaatgagg gggccagtgc tggaccaatt 5580 
ggccagcact ggtcattgac ttattcatcc atcattcatt tattcagcca gaatctatta 5640 
ggtgcttcat acatatttgc ttaaagtttg ttgtgttcat agagctttgc acacggtagg 5700 
tactccataa acatttgttg atgaaataag tgagttactg aatgaatgat tgaattagaa 5760 
tgacactgca gtgttaaaat gggctgggtt ggggaacatt ttagtttttg tttttgtctg 5820 
ttttccaaaa atgtatgtgt tgttcacatg agtctggata accctagatt gagattgatg 5880 
acataaataa atttgtcttc aaggctgcac taaagctggc tcacatggct aggtatttac 5940 
agagcagaag tggtgcagtc ctctctgatt agttgcacgt acagaagaca tattcgttat 6000 
tggactgacc ttagtttctc ttataatttg ttaggggaat tgaatcagcc catctgagaa 6060 
gttacaagat tgtgtcttgt catctttaaa agttcagcaa tgtgatgtgg tacagatggt 6120 
ctgaggggtt tggagaaggt agcctagatc cctagggccc agagaagaca ggatgtgaac 6180 
agaggaagta catggattgg tgaagaaaag aaatgggata actcatgggt caaagaagaa 6240 
atcatgatgg aaatcagaaa atattcagaa ccatacaata atgagaatat tatttatcaa 6300 
aatctattgg atgcagctaa agcaggacat agggggaaat ttacaacctt aggtgcctag 6360 
attaggaaag aaggaaggca tttgtttatt tatttgttta tttatttatt tgagatgggg 6420 
gtctcactgt gtcacccagg ctgctggagt gcagtagcac gatcataaat cactgaagtc 6480 
tcgaacttct gggctgaagt gatcctcccg cctcagcctt ccaagtaggt gggacacagg 6540 
ctagcaccac cataccaggc taattttttt tttgtagaca cagggtcttg ctatgttgag 6600 
gtctcaaact cctgggctca agtaatcctc ctccctcggc ttcccaaagt gctgggatta 6660 
caggcatgag ccactgcgcc catctaaggc tgaattttaa tgagctaaga attcatctta 6720 
agaaagggct aaatagacag caaaagcaaa cattgaaggt tgggactgag ctgagtgggt 6780 
agcagggatg ggagacaaca gatctgagga gagcaggaga ttttgaaagg attgcactgc 6840 
ctgaggttta agcctttaga atccagctct ctctgagctc cctttgagct ctgacattct 6900 
gtgactctga tttggtggcc ttcccttagt ggccttactg atttcatttg gatggtgctt 6960 
gtggtatatc caaccaacat gtcttcccaa atggcctttt aatttcctat aaagaagtag 7020 
ttgtcattga ttgcaggtta gggacagaaa atgctgtgga atgaaacaaa atgcaagtta 7080 
aagaactaaa ttccaaaaat acccattgct actattgact gagtgaattc ctactgtgtg 7140 
ccagacactg tacccagtcc attccctgta ttgttttatt taagcctcac aagggtatag 7200 
tgtgactaca ctgtttctta acaatgaaga aactgcccaa atcgcccatc tgggaagcgg 7260 
cccagctaga atttgaatcc aggcctgttt tcctccagag cttgtgctat tctctgtctg 7320 
tcataaaatg tgggggcttt gtgtggtaaa cttgctcagt tgggcatagc agttgttagg 7380 
aaacctgagg ctggtaacac cagctgtaat accagctgtc cgtctgactc atgcaactgt 7440 
taaagttgat agggctgagg tgtcagactg agctctgaat tgcctgattc ctataacaat 7500 
attaacttaa acatttttta aattgggaaa tgcaccatgc atacagaaga gtgtgtatat 7560 
ttcatatgta tagtgtaaac tgttcccatc acccaggtta aaaaacagga tgttgccagt 7620 
acctggggcc ttctttaact gcaactgcta gaggtaaaca- ctggcttgac ttttgtgtaa 7680 
atcatctctt tgcctttctt taatgtttta gcatctttta aaataaatcc ccaaataatg 7740 
tattgttcta ttttgaaaaa ctgagtagca agccaaaaat agctgtgtaa agaaaggtca 7800 
cttaaattag gctgggtgca gtggctcaag cctttaatcc cagtactttg ggaggctgag 7860 
gcaggtggat cacaaggtca ggagatcgag accatcctgg ccaacatgga gaaaccccgt 7920 
ctctactaaa aatacaaaaa attagccaag aatagtggca tgtgcctgta gtcccagcta 7980 
ctcgggaggc tgaggcagga gaatcgcttg aacccgggag gcagatgttg cagtgagctg 8040 
agatcgcact gcttgaaccC gggaggcaga ggttgcagtg agccaagatd gcaccactgc 8100 
actctagcct gggtcacaga gcaagactct gtctcaaaaa aaaaaaaaaa aaaaagaaag 8160 
gttactattg ccftttctta gatgaaggtt cccaaggcag ggaaagctaa gtggagtctc 8220 
agggacttgg tctggctttt ccttccctgg gaatttataa ggacctcttc tgggaagtca 8280 
gtcggcaatg ccatgaatga gtctggggaa atattgggct cattgcaact ggagggtctg 8340 
gtaggactga tgtgaattag gtgctgtgtc cggaggaaaa tggccagagg aagtgggctg 8400 ' 
ctttgtacag tcagtggtaa agttgccaa.a ggctattata gctcacagga atgggccaag 8460 
gctaaacact cctgtggagt gaaatgaatg tcctcagctg actgaggcag cgggagttga 8520- 
gaagaaacga tattagttca tggtgaagac aa^tcaaata . tagataaagg ttagggtcag 8580 
gcttgcctgg acatctagga gataactgcc ctcaacttgt ttgaatcttg agtcactgct 8640 
ccattttgtt tgaactggtg. gccatctact tatagtatac agccatcaac ctgagatttc 8700. 
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cctacatggt cttcctgcct tggtctcctg tatcctgaat cctatggcct cttcttccct 8760 
ggtttactac attttgctag accgtatcct ccagtcaatt ccttagaatg aatgtatgaa 8820 
agttaaaatt tctgaggtct cacatgtctt aaagttccct catactggat tgatagtttg 8880 
gctgggtata aaattctggg ctggccatca ttttccttca gaattttgat tgcattattc 8940 
cattatcctc tcttttcaat attgcttcta agaattccaa aacctttttt tttttttctt 9000 
tttgagacag tgtctcactc tgtcacccag gctggaatgc agtagtgtga tctcagctca 9060 
ctgcaacctc cacctcctgg gtttaagcga ttcttcttcc tcagcctcct gagcagctgg 9120 
gattacaggc acccaccacc acacccttta gtagagatgg ggttttgcta tgttggccag 9180 
gctggtcttg aacttctgac tttaggtgat ctgcctactt cggcctccca aagtgctggg 9240 
attaaaggcg tgagccacca cacccagcct ccaaaaccat tttaaaactc tttctggaag 9300 
cttttaaaat tttcttttag tccccagaat tttaaaattt caattatgtg ccttggtgtt 9360 
cttccattat attagtcacc caagaggtac tttcaatctg gaaacttctc tatgttttgg 9420 
gaaatgttct tgattagttt acaggtgatt tcttcctctc cattttatct cttctctttt 9480 
catgaaacta ctattaattc aatgttagaa ttccttgact gatcatttaa ttttcttcta 9540 
ttttccatct ctgtgtcttt ttgctctact tttctatgat agtcacagct ctatctttaa 9600 
actcttgagt ttttcatttt tgatgtcatg attttaattt gcaagaggta ggtttgactg 9660 
attctttttt gtagtatctt actcttgttt tatggatgca acatcttctt tgacttaagg 9720 
atcataagat aggtgggttc tttgtttgtt tgtttgactg tttttcaccc tatgtaaact 9780 
ttttctacaa gtttctttcc ccttcccccc tttttggctt ctatctccca cattagatgc 9840 
tttctctggg ctcatgatac tctttggttt tctttctcaa gattgacagg taggacttta 9900 
aaacttgttg agcatgcggg tgaaacttgt ctaccatgaa tttcactgta gatattttgg 9960 
agattgacag tgtttatatc tttagatctc acctcctggg ttgatcaagt tatctgagta 10020 
caccacagac cttttgcctg gggataaacc agaaatctgt ttcagaaacc actttgattc 10080 
agtcttcctt gttttagtca tttccttcag ttccggaggt ccgtcatgct gatcattcca 10140 
gagcccttta cagatcctag ggtacacact gcatggtttt caactttctt gttttggggt 10200 
taagatttgg ctttcaggag tctcctcagt ccgttactat tcattcaatc agcaagtcct 10260 
tgagcacctg atttgtgcca gacattcttc taggtgttag ggatacctca gtgaacaaaa 10320 
cagacaaaaa tctttgtctt ggaaatacac acactccagt caggggagag ggacaataag 10380 
ccaaaggaag gaaattacag cgtgtgctag aaggtgataa gtgctgtaga aagtaagtaa 10440 
agtgggtttg ggagttgaga gtttgggaag gggataaatg atggcaattg taaatagagt 10500 
agtcagagtt ctcacttaga aggtgaaatt caagtaaaga cttgaaggag gacagggaat 10560 
tagccacatg gatggctagg ggaaggcttc caagctgaga ggacagccag agccaaggcc 10620 
cagaggcagg agcatacctg gtagttttag gaaacaggag gccaggatgc tgagtggagt 10680 
aagagggggc atgaaaggag aaacttgggt ccacgtggtt ctagacaggt atttttgtct 10740 
gttttgggcc ctgaaggtta ctattggact tggactctta ctctgaggaa atagggacgc 10800 
tattgggacg tttgtacagg agcaatgtga cctgagtttt gtttgtaaag gattagactc 10860 
tggctgtggc attaaggcta ggctgtgggg gcaggaacag aagcaggggg accagttttg 10920 
cagcctgtgc agctttccag ataagcaggg attgtggctt ggaggaggat ggtatagagg 10980 
aggtgacaag aaatgactct atgtctggta tgtagatatt ggccacagat ggcatttgag 11040 
cactagagac ctggctggtc cacatggagt ttccataagc acataataca catcagattt 11100 
caaagactta atatgaaaaa aaaaatttaa cgggccccgg gaattttttt cttttttttt 11160 
ttttttgaga cccagtcttg ctctgtcacc caggctggag tgcagtggtg tgatctcggc 11220 
tcactgcaac ctccgcctcc caggttcaag tgattctcct gcctcagcct cctgagtacc 11280 
tgggactaca ggcacctgcc accacgcctg gctaattttt tgtattttta gtagtgatgg 11340 
ggtttcacca tgttgtccag gctggtctgg aactccggac cttaggggat ctacccgcct 11400 
tggcctccca aattgctggg attacaggca tgagccacca tgctcagcca tatcttgcta 11460 
ttttctacat ggattacatg ttgaaatggt aatgttttgg ctattgtgga ttaaatagaa 11520 
tatatgatta aagttgattt catctatttc ttttaacttt aaaaaatatg tctgttagag 11580 
gatttgaaat tccacatgcg gcttgcattt gtgacctgca tttdatttct gtggaacagt 11640 
gccctttttg ggacatgctt tgaaggtgga gtcaacagga tttggcagat tacagacgag 11700 
aggcttcaag ggtgactcca agacttcggg gcagagcacc tggaagaaag gggttaatat 11760 
tagccaagat gaggaaggct gtcggtttgg caggtgcatg ggcaggttag gagtttagtt 11820 
ttgaatatgt tggaggtgtt tatgaaactt ttaagtggag atggaaaata ggcagttgga 11880 
tgtgcaagtc cagggttcag ggagacagtt caggctggag atgaagatgt gggagtctga 11940 
ggagagattg tattcaaata ttcaatccat gagacttgat gaaatcactt ctcttccaaa 12000- 
tgatttacag cctgcagaat cattttccct atctttgtag gtttatgtct tcattttgtt 12060 
tcatttattt ttcagttatt cactgtttta gtgagttttg agt'aggagcc agattggatg 12120 
catgcgttca attcaccatc caacactgta ttaactactt gaaactcatg tggttgttcg 12180 
gttgtttttt tgacctttta ttctggatgg aagagagatg cttatgaagt tgcagtaatc 12240 
agtaagcctt. cccacattgc tccatcagcc ttcctggaag aataatgtct tctgcctttc 12300 
ctgtaggcaa gaaggctgct- tgatcttgcc agggtgaaag cgaatggatt ggctgccttc 12360 • 
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cttctacaac atgttcagga attaccagtc ccattggccc tgcctttgga aggtaggtgt 12420 
atgttctcag ttaatcagaa agggaagggc agtcagtgca gatccatggt taagagcaga 12480 
acacacctcg gttaacatcc catatgctgg cagtatagcc tccctatgac tcaatttcct 12540 
tgttttaagg ctagcaccac cccgtctcat tgggattttg ggagcattaa aaggacaaaa 12600 
gcgtgtaatg ttagctatta gctttcatta tctcccacac agtatactga caattgggct 12660 
accatatatt gagggctaac taaaggtgtt acttaccatc caaactctca ttatctgtac 12720 
cgaaaagata tggacacatg ttttgagtta gggctggtat ctcttgatct ctgaaattta 12780 
gcagctcaca atgggaaact caagaaccaa gtggatctag agactctggt atccctcagt 12840 
gcccagggtc accacccaaa ctcaggaaca ggaggggctt ggaccgcacc acttgaacat 12900 
accaggcatc ctgccaggtg ctttatggac aatgtctacc ctttgcaaca accctgagaa 12960 
gtaggtggtg tttttttcca ccttatagat gtggaaactg ggcagggagg ttaagtgacg 13020 
agggagggga agatgggtct gattgtaaat tgtccccacc tacactttct cttttcttgg 13080 ' 
gagaagaaat gtcagttgta aagagagagt gcaagcctgg cactctttag ggcttgttcc 13140 
tacaccactg tagggaaagc tcattggcac tgaagccccc tgagctgtgt gtggtgctgg 13200 
cagatgggtc tatcaccctg gactgtgtcc tctgggcagc aagcaagcct gtgggcgggg 13260 
tggctggaag tctgtgcctg gcactcgcga gtgcaccgtc tcattgaaga acaggatcta 13320 
aacatcagtg cgccacagca gggtgcgcgg cacggagtgc aggccctggt ttggcccttg 13380 
gttgaggttt gctgttgaca tcatcaagca cagctagtca ctgtaagacc aggccagggt 13440 
gcaagattcc ccacacttct aaaggtgaca attggtgtat ttatttctct ataaaatgac 13500 
attttttttt tctggagaat tttagtatca ttggtgatga ctggaaaacc tgcatcagaa 13560 
atcaggtcgg aagaggaaga tatatatctg atatgtactg gagaggaaga tatctatctt 13620 
atggtctaag ttcagggatc ctggtatatt cagagggcag aaagctcagc aataatcatc 13680 
aactctggga acagaggtga cataaacaca gggcgtcccc tttgtgtgac tgcagatagt 13740 
catcagtgag ctcagagctc tatgaaaatt acttgctagt ttttgggttg aaaatagtgg 13800 
gccagtgttt ggttgggggc agtgaggctg tgatggcggg ggaccatgcc aagctcctac 13860 
cagcctggga cgctaaacca gcacttcccc atttcctgaa aggggaacta aactctgaca 13920 
caggaaatgg tttgcttgca ttactttcag gatgagaaag gaagagcact ggccttccaa 13980 
acacaccccg tgcatgaaaa ctctccctgc atggggtgca tggggaggat ggggaagtgg 14040 
aggcaggatc acagactctt gttcgagtgc tcagctgggg caccccggtg accccgaggc 14100 
cttcccttgc taggtccacc cagatcaatc aggatcatct ccccatctcg aagtttaact 14160 
ttatcacatc tcagagttcc ttttgccacg taaggtaaca tattcacagg ttctgagaat 14220 
ccggacatgg acatctttga gggtctattg ttgtgcctac tatatccatg aataataatg 14280 
ataataagca ccattttttg agagtttgcc atgtcagata ttcttttaaa ctgtatttta 14340 
tctcgctgcc tcctgaaaaa atccttccag gtgtatattg tccccatttt tacagatgag 14400 
agaactgagg cccagaaagg ctaaatggct tgcccaagtg tatggtggac ccaggttttc 14460 
aaactcaggt gtgtctggct tcagagactg ggctcctgag cccttaagcc ctttgttccc 14520 
ctttagaaaa agtcacctga ggctgagtgg tgaagggatt tatccaaagc cacccggcca 14580 
ctatggcagg acagatatca gaatacaggt cttccgatcc cagcccagag ccccttcccg 14640 
tcatctagaa ctcctcctgg tgtcagtaat gataacggca gtcactgatg tcttttgagc 14700 
acttactttg tgttgagcac ttacactgtg ctaagcactt gacataggtc atcttagttg 14760 
atccgtgtaa aactctgtga ggtagtgacc aacatttctc ccaccttaca gaggtggaaa 14820 
ctgagggtta ggaagtttcc ttgactgtcc tcaaagtgca cagcttgtga atggaggagc 14 880 
caggatgggc gcccgctggc tctcctatcc cttcagttat gtcagcgtcc cccgcagcag 14340 
ccqattgtct ggttaggtcc cgtcttcacc atggtgccac cttcatctgc ctcttcttct 15000 
gccttccagc tgccacatgc aagaagtata tggccaagct gaggaccacg gtgtctgctc 15060 
agtctcgctt cctcagtacc tatgatggag cagagacgct ctgcctggag gacatataca 15120 
cagagaatgt cctggaggtc tgggcagatg tgggcatggc tggatccccg oagaagagcc 15180 
cagccaccct gggcctggag gagctcttca gcacccctgg ccacctcaat gacgatgcgg 15240 
acactgtgct ggtggtgggt gaggcgggca gtggcaagag cacgctcctg cagcggctgc 15300 
acttgctgtg ggctgcaggg caagacttcc aggaatttct ctttgtcttc ccattcagct 15360 
gccggcagct gcagtgcatg gccaaaccac tctctgtgcg gactctactc tttgagcact 15420 
gctgttggcc tgatgttggt caagaagaca • tcttccagtt actccttgac caccctgacc 15480 
gtgtcctgtt aacctttgat ggctttgacg agttcaagtt caggttcacg gatcgtgaac 15540 
gccactgctc cccgaccgac cccacctctg tccagaccct gctcttcaac cttctgcagg 15600 
gcaacctgct gaagaatgcc cgcaaggtgg tgaccagccg tccggccgct gtgtcggcgt 15660 
tcctcaggaa gtacatccgc accgagttca acctcaaggg cttctctgaa .cagggcatcg 15720 
agctgtacct gaggaagcgt catcatgagc ccggggtggc ggaccgcctc atccgcctgc 15780 
tccaagagac ctcagccctg cacggtttgt gccacctgcc tgtcttctca tggatggtgt 15840 
ccaaatgcca ccaggaactg ttgctgcagg agggggggtc cccaaagacc actacagata 15900 
tgtacctgct gattctgcag cattttctgc tgcatgccac ccccccagac tcagcttccc 15960 
aaggtctggg acccagtctt cttcggggcc gcctccccac cctcctgcac ctgggcagac 16020 
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tggctctgtg gggcctgggc atgtgctgct 
cacaggtcag ccctgatgac atttctcttg 
cagggagtac ggcgcccctg gaattccttc 
tctacctggc actcagtgct gatgtgccac 
gcaggccagg caactcacca atggccaggc 
agggaaagga cagcagcgtg gcagctttgc 
tcacagcagc cttcctggca gggctgttgt 
gccagacatc tgagaaggcc ctgctctggc 
gcagcctccg caagcacttc cactccatcc 
tgcatgccat gcccgggttc atctggctca 
ggctggctcg gaaggctgca cgtggcctga 
gtgtgggccc cactgagtgt gctgccctgg 
tggccctgca gctggactac aactctgtgg 
gccttggtgt ctgcaaggct ctgtagtgag 
ggagcaccat caaggctaag tgtgggagca 
cttcgcctct gccaccctgc tttgcaacac 
tttcaatatg tgatgatgac agccacactt 
ctatgctttc cggaatgacc tcatctaatc 
tgttattatc tccattatcc ttgacttgag 
aatggcagag ctggggttca caaattgcat 
cagtctatgg atacacttca gaggctccct 
tgtgtagtat gtgtccgtat caggaacaac 
gagactttaa caccccaacc agatgggaat 
agggttacaa ctactgttgg attcctgagg 
tacccgtatt gcttagagcc ccagccaaag 
gcccctgaac tcgggggcct ctttccacat 
ctaggcctgc ggatcagcat gcgacagatt 
tgccctgctt ctatttagaa cctataggaa 
attcccagcc tccaggggct ttgggctaca 
ggacaaacca cttcctgaga gtattaggat 
aagatttatt tttcatcatg gaccaaacac 
ttttgttaac cctgacatag ggaccatggt 
acataacata tatagcgaat atatatatgt 
acccatcatg gtcttggagg aaacagatga 
ttgaaaaaca gattgtttac aagccatggg 
caggggcctg gggttagtaa cagctggggg 
gactaattag ctggggggaa ggtatggaga 
atactgcttg gccctaactc ctcaccccaa 
ctggacccat cagggaggcc gagtgggctg 
cccaggagcc agggacgggt agagaagggg 
cagccagcac caaactctat ttccctagga 
tggaaacctg tctgttggag caatttccct 
tagtagactc agtttttacc ccaagaggcc 
gfccagtccat ctctggaatt cttgaatgga 
gattaccagg gtgtgcagaa gggctctggg 
aaaggtgagg gtggcotggt tctagctcat 
cgtggcaatg cagattcctg ggcctgcctc 
gggcccagga aatctatatt tttcacagac 
gccctgggag aactactggt ctgcagcaac 
cttgagcgag ttttactgct cttcacctta 
aggggaagca accatgaggt tgctgtgagt 
tgtgtgtgtg tgtatgagag agagagagag 
agggcacagg ctcctctccc acagtgccaa 
tgccaactga aatcctcagc ctptaggaaa 
tctttagact ctggctctct cagactctag 
.acagagagag agcacgcacc accatgtaaa 
gctttatgaa ctctgagaca ctctgctctc 
tgctgctcag gaccttcaaa atgatttgca 
tgcactacag aagtggccat aagaggccct 
gagtggggtt tggagccaag ccgcctaggc 
caaagtcact tcgcttgtct gtgcctcagt 
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acgtgttctc agcccagcag ctccaggcag 16080 
gcttcctggt gcgtgccaaa ggtgtcgtgc 16140 
acatcacttt ccagtgcttc tttgccgcgt 16200 
cagctttgct cagacacctc ttcaattgtg 16260 
tcctgcccac gatgtgcatc caggcctcgg 16320 
tgcagaaggc cgagccgcac aaccttcaga 16380 
cccgggagca ctggggcctg ctggctgagt 16440 
gccaggcctg tgcccgctgg tgtctggccc 16500 
cgccagctgc accgggtgag gccaagagcg 16560 
tccggagcct gtacgagatg caggaggagc 16620 
atgttgggca cctcaagttg acattttgca 16680 
cctttgtgct gcagcacctt cggcggcccg 16740 
gtgacattgg cgtggagcag ctgctgcctt 16800 
tgttactggg cattgctgtt caggtatggg 16860 
ccgagctggg ctctagaagt ctgggcccag 16920 
tgcccagatc ccttcccttc tgggccttaa 16980 
tattgactgg cctatgtgct gggtctggtg 1704 0 
tctacaacca ccctgggggg taggcaggaa 17100 
gctcagagaa gtgaagtaac ttgtccagga 17160 
cattctgatt acaggttttc tgcctcccac 17220 
gaaaaccttg aggtcacttg cagaaagttt 17280 
accaaatcag aggtgacttg tgccccatca 17340 
ttcaggaccc aagaaataga aagtggctgc 17400 
tagcacagtg tccaaacagg atttcagcac 17460 
atgtgaggtt ttgccctttg gagaatctgt 17520 
cttgggggca ggcaagggca gagggtgtgc 17580 
ccccaacatc cttccagctt gaaaggggat 17640 
agcagaagtt ctagattgaa gttaaaattg 17700 
cctggatgac cttaattgac cctaagcatg 177 60 
ggtatacatc ttctctgggg gcaaagcaac 17820 
atggataccc actagaaact gtgtagtgaa 17880 
ctttaggtta aagcataata acaacataat 17940 
attatatgca atgaatgtaa atatgattat 18000 
cacacttaaa atgggtgttt tgaggagagt 18060 
caggagttag gaagagtgag agggttggtg 18120 
agggtagact tgaaggggga aggggaggga 18180 
cggctgcctg agcttctgca aagtggaaga 18240 
ctcttgctcg tggccagcgc cttccaccag 18300 
tctgctggag tagtccccag gcatcagcct 18360 
gagagtggat ctggccaggc aaatggaaaa 18420 
gggaggatca tgatactttg agtgggaatt 18480 
gatagaaata agaatgtgca ttttcctggg 18540 
aggcatcact ggcctgtgtg atcctcatag 18600 
tcatccatcc ttgattaggg atgtccccgt 18660 
aaacctgtgg gtctgtctct gtgttcagag 18720 
ggtgctcaga ctgtggtgtg taaaggcact 18780 
tagtgattcc cattcagtag gtttggggtg 18840 
acccctggtg attctgatac aagtggtctc 18900 
cagcttggtt ttccattagc aattactgtc 18960 
cacacactaa aactgccaag gccgtagggg 19020 
gcactgtgtg tgtgtgtgtg tgtgtgtgtg 19080 
attgagaaag agaggaaggg aggaaggggg 19140 
cctgcctctc tcccacttga agcgtttcca 19200 
ccctatatac acagtgcccc tatataggtt 19260 
agtgatggct ttaaaagttt tatgttaccc 19320 
catggaacct aagtttcaca aaatgacttc 19380 
ttctgttctg ttctatttcc attttagaaa 19440 
tgacctgcaa cctgcagtct gaaaaatcac 19500 
gagggagaag ctgcacaatg tcatggttaa 19560 
tcaaagcctt tatgtgccgt acaaccttgg 19620 
ttctttctca cgaatgctca taataatggt 196B0 
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tcccatttca ctggcttgtt gtgaggatga 
tagtgatcag tgctagcgat catgattcta 
aaggctttat gtgcacagcc tggtgaggct 
ttggaaacgg agtctcgttc tgttgcccag 
atgcaatctc tgcctcccgg gttcacgcca 
gactacaggc gcctgccacc acgcccggct 
tttcactgtg ttaaccagga tggtctcgat 
ctcccaaagt gctgggatta caggcgtgag 
agatgaagag accagcaaat aactagtaag 
ggcactccag agcctgagct gttaaccatt 
taaagaatca tgtgcacagt tgttaaaata 
cttgattgcc agctccaggg tatgggcctg 
gatgttgtga tcaggtgagt tttgggaatg 
gctcggcagg gactagcctg ttggagtggt 
cctcactaac cacagcctat atgcctgttt 
tctactgtct gctgacctag atgatggtaa 
ggctgcacct ttcgcatata tcagctcctt 
tgattatcat gttccttttg cagagatgga 
ctaaggattc cagggttctt tagtaggggg 
catagtgcac cacgtcacct ccctggccag 
ctccatctat gcagggtttc ctggaagcac 
tctttttggg ggatttgtag atttttttct 
tattttgtct ctttagtttg cgcgataaca 
ttgaatgtgc tcttcactgc gagcaattgc 
gacaatgggc tccaagtgcc ctggtctcac 
tgatgggctg gggcaggggc tgtttgcatg 
gggaagggca accctgggat ttggtgctca 
tctcttctgg aactgaacag tctattcaac 
atggctaagc tccttgcatg caggcagaac 
cttattccct ggaaactatt ttttgcccca 
tggcactgcc cacactggct cctgacctcc 
aagcaggggt tctctaatgc tgtgatctcc 
acttcctgtc ttttgacctt tagcccgtag 
tttctgtgtc taagagtgtc acagctttct 
gctcgtcctg gtgggggagg catacacagt 
gctgcaacac tcccaggagg tcctttcacc 
tggttctgca tttctgctac tccagtgtct 
tacctgatgc ctttaaattg cccctctagc 
cttctctctc tctcagatat tcttgcctcc 
agtaaagaat tgcttccatc tattctttta 
gccattttaa aatggcgggc cacatagctc 
cacaggtgcc aatttgtaca aaggactcag 
cacaagcctg gaataggctg tggccagacc 
tttcagaaat ggaggctgag tttgtggcca 
gatgttctaa gaccccagtg gatgcctgaa 
catgcttttc ccaataccta cacacctgca 
aagagagtaa tagcaactca taataaaata 
aacactatgt gaatgtggac tctctccatc 
acccttcttc ttgggaagat gtgtggtggt 
tggatgacgc atgcagcact gtgctctagc 
agaaggagaa tcatctgctc ccagagatcc 
ctggatgtca ggagcagacg atcttgatga 
gcgctggacg gggggctgat tcacgtcctg 
gaatagcatg caatttaaaa tgtatgaatt 
tttggactgc agttgatttc agataactga 
gggggcaggg attaccgtat atcattgtaa 
ccgaggtttg aaccctcatt agctgcgtga 
cgtttcccct tctgtagaat ggaggtaata 
agcaagcaag ttaatccaca tgaagggctg 
cgagtggctg. aaagatgatg ggtaaatcac 
agtccggtcc tccaagcagg gattcaatgt 
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aatagtgtta ttattgagaa gtggtaaggg 19740 
ggtgactttt actgtgtacc gggtgctcac 19800 
gataatacta ttgttccctc tttttttttt 19860 
gctgggggta cagtggcaca atctcggctc 19920 
ttctcctgcc tcagcctccc aagtagctgg 19980 
aatttttttg tatttttggt agcgacaggg 20040 
ctcctgacct cgtgatccgc ccgcctcggc 20100 
ccaccgtgcc cggcctgttc cctcttttat 20160 
tcgctgatca ggatcacaat atccagctga 20220 
cagtcagggc ctcccaagtt tgcctaaaga 20280 
tacagattcc tgggccccac cccgcagata 20340 
agaatctgtc ttttagggaa gctttcagat 20400 
gtgccccaag aggagtggca gacagggctt 20460 
gccattgggg ttaaggactg ggcagcaggg 20520 
ctgaagtttt ggccactctc atccagctgg 20580 
attgtcccca ggggtagcct gtctagttca 20640 
tccaccatca tcccctttgt gaggctgctg 20100 
aacattgcct caaattagct ctgtcatttc 20760 
tctggatcct acgtcctggg ccatccccat 20820 
ggaccgtggg gtctccactt ttttggggtg 20880 
agatgctggc acttcaggga tgaatgaaag 20940 
tgtcttacta gctccatttt caaatgtatt 21000 
atatctcaga ccgaggcatc tgcaagctca 21060 
agaagttagc gtaagtcagc ctgggctgtg 21120 
cccaggtcgt gcagcctggg aagctgtgag 21180 
atggggggtg caggtgattc ctgcccagag 21240 
ctgtccaatg tgctttgctt ctgtgtctcc 21300 
aacaaattga ctgacggctg tgcacactcc 21360 
ttcttggcat tgaggtgagc ccaggttttc 21420 
ttcctgagtc agtctgatct ggtcttggcc 21480 
tgattgaatg cagggacagt gtctcatttt 21540 
ccagtaaact ctggactagc tctgctgagg 21600 
ggcaagaaag cttttctagg cccctttcct 21660 
ggggttactg agttccacga tgcatgttga 21720 
tacttgccac cccagctgtg gcagcgagtt 21780 
actcagagca tgcaaggttt gcagtccatc 21840 
cccagtttca acaggagtct ctctctctcc 21900 
tggccgctgg gttggcctgg cttctctctc 21960 
tgtgatttgt gaggcagtaa aaaaagacaa 22020 
cctcttgggc tgggtttgtg gatgggagcc 22080 
agtctcggca agggctactg agatcagaac 22140 
tcctgctacc actgcctgat ccctcagact 22200 
tggctggccc atccctgaga agggtgctag 22260 
acacagtagt cctccggtat gtgcaggaga 22320 
accatggaga gtatcaagcc ctacacatac 22380 
ataaagtgta gtttataaat taggctcagt 22440 
gaacaattat aacaatcaat atactataat 22500 
tccctcaaaa tatcttcttg tactgtactc 22560 
aaaatgcctg tgtgatggga ggaagtgagg 22620 
gctgggctgc tgttgacctg accaca-cttc 22680 
ctaatctttg agcaaca^tg aggtcggcag 22740 
ttaccaaatg ggagcgtata gagcgtggat 22800 
ggtgggatgg agctggatgg cacgtgatca 22860' 
gtttatctct agaattttcc atttaatatt 22920 
aaccatagaa ggcgaagctg cggataagca 22980 
tagagagcac aggctctgga gc.cagactgc 23040 
cctcaggtca gcccaatgtc tgtgtgcctc 23100 
accctggcta cctcacaggc tgtagtgatg 231S0 
caccgtctgg .cag^ggcttt atatagtaag 23220 
acaagcactc agcttgtttc tccttatgtg 23280 
gccacpcatt tattggggaa aagtcctaaa- 23340 
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aggggaagtg gggaagggag ctgggggagg ctgggaggtg tgtccctgag tgaaggagag 23400 
agggaaggaa ggaaggttga gactgggcac cttggacttc agtgcagtcc taagacatct 23460 
tggcaaggct gatgaggagt tcttgaacca aattcaccag gcaggggagc ctgatgtctc 23520 
aggcaggggc tggcaagtgc agatgcgagg atgttagatt ttggagcaca gcagctgggg 23580 
cccttggcta cctccaagga gctgaggctg gagacctgaa aggcgagttc tcctagctgc 23640 
cacacccctt ctccaaggat acaataatat ctgccttata ggattgttgt gagctgagtg 23700 
gcttgacgtt ccttgaaaga atgaaagcgt atagttatcc caggaagcct agggttgcag 23760 
gtgagagctc tggggcttct ccgaagctct ccgaggtgtc tggattcagt tgcagcagga 23820 
gccttccttg ctgggatctt cccccacccc tagccttggc cctccctctc tccttccttt 23880 
ctggaaggct cagtgggccc cacccctccc tccagccacc tggacctgcc cagcgctctt 23940 
gtgcaacagg taaagcctac ctgtagcaac aacagatctg ggaaggctgc agagggcacg 24000 
atggggtctg gatcgagggc ggctgagacc agagggaaag gtgtgaccct gagtcaccct 24 060 
cgctgtcccg gggaaaccac ctcccaggac agctgcctac tgtggctcct gcctggaatt 24120 
gtcacactgc tgtgcaaaca gcgtcccgct gcccctttcc ctttgctggg ggaaaatgaa 24180 
gttgtgggag ccgctgagta aactagacct agcagcgagg gcacctgatg tggctgctgc 2424 0 
ctcccgggca ggtcttcaat gctttcttcc tgtgtttccc tggccagggc acagacggcc 24300 
ctccttttct gcctgccgct gtgttctctc agcctcctct gtcttccctt ccaggctggg 24360 
gaataactac atcactgccg cgggagccca agtgctggcc gaggggctcc gaggcaacac 24 420 
ctccttgcag ttcctggggt aggttggatt ccaggaagag ggacctgcat ggaggggctt 24480 
gggacttttg aggatttagg ggcaggtgaa actcttcagc caggaggccc cagaggcagc 24540 
ccagctccag tggggaggac aagccaggga gagagtgggc ggcccttgac tgccaccttc 24600 
atacttggtc tatgcctgac aaacaggaag tttgggatgt tggggctagg ggaggacagt 24660 
gcccacgagc tggtgacagg aagccctctg atcctcaggg ggcgctaggg ctgtacttta 24720 
gctgcatatt aaaaccacct ggaagcttct aaacactatt gccaggcctc ccaccccaga 24780 
ctgatgaaat gcaaatatct aggtgcaagg cccaggtatc aggagtttta aaaagcttcc 24840 
caggggatgt acagccaggg gtgaggaccc ctgacctaag aaagagaagg aaatggggaa 24900 
ggataggaag gcacccagga taagaggggc tgtgctaggt ccctcggagc tcttgctccc 24960 
tgtaggacca tgctagggcc tgccagggag gggagtaccc caacctgcag ccccagggtg 25020 
ggcttcctct gtttgctagg cacccaggct tgcacctgtg ctgtttccag cagcctctct 25080 
cctatcctgt catgccctag tgtgaactgg agtccatttg acaagaactg ggagttttag 25140 
aacctgggac tgtaggaaga gagaataacc ttagggccta ggtgttccag cccatttcac 25200 
agggaggcaa gttgccccca agctcagttt tttgttttgt tttgttttgt ttgagatgta 25260 
gtctcactct gttgcccagg ctagagtgca gtggcacgat cttggctcac tgcaacctcc 25320 
gcctccttgg ttcaagcgat tcacctgcct cagcttctca agtagctggg attataggca 25380 
cccaccacca cgcccagcta atttttgtat ttttagtaga gacagggttt caccatgttg 25440 
gcccggctgg tcttgaactc ctgatctcag atgatccgcc cgcctcggcc tcccaaagtg 25500 
ctgggattac aggtgtgagc caccgcaccc ggcccccaag ctcagtttga gccacaaatg 25560 
ggactatgtt gctctagaaa tcaacatctt ttccacactg cattagtagc aacagagtct 25620 
agaacaaagg aggccacagc cccactgaac tctcttctgc ttgaggtcac atctgccaca 25680 
tcaggggtat ttacctcttt caacacatat ttattagggc acctgtctgg gccaggcgtt 25740 
gtgctaaaac ccccaaacgc tgtcatatga tacaaagtgt tctgtaactt gcttggtttt 25800 
tttttttgtt tgtttgtttg ttttgttttg tttttgttgt tgtttttttt tgcttcgcca 25860 
tatattatag gaattttttt aggtcattat gacctcttta tttacttaat tatctattta 25920 
tttattttac taatatttac agaaagggtc tcactctgtc acccaggctg gagtgcagtg 25980 
gttgcaatca tagctcattg tagccttgaa ctcctgagct caagtgatct tcctacctcg 26040 
gcctcctgag tagctgggac tacaggcaca agccaccatg cctggccgat atttttatgt 26100 
tttgtagaga cggggtctca ctatgttgcc caggctggtc tcaaactcct gggctcaggt 26160 
gatcctccct cctttgcctc ccaaagtatt gggattacac aagtgagcca ccttgctcag 26220 
cctgacctca tttttcaaag agctgcagag tgttacataa tgtatttaac tggtcacttt 26280 
ttgatgacta ttaagttgtt ttcaggtttt ttgttattac • agtgtcatat ccctggggca 26340 
cagagcagtg ctggcacata gccagagctc aatcgataca tacctaatga atgaaagtac 26400 
"agtggacatc ctaattcagc cattctttgc taacttgtgt acatacctgt ccagggtagg 26460 ' 
tccctagaat acagtcaata agtcagaagg tgtgagttgg gatctacctt ttggaaaggg 26520 
atgttttcaa actacagtga gtcagaggag gatggcccag aagctggggg agttgaagct 26580 
gatggcgtga aggaattagg ggtgttagga agaagcagga gataaagagc tagcttgcag 26640 
* aagaagtgtt agacttgtta tgggcaggta ctggagggta gctaaggact tgtgggtggc 26700 
agttaccagg aagcgtatct gaactaagtg tcagaaaaag tgtcacaact gtaaattact 26760 
cttgtcagtg agttcctgtc cttaagggtt agggctgggt agccctctac tattctctaa 26820 
gtctgtaatg taaagccact gaaaactctt gggttaagtt tggccatccc acccaaaaga 26880 
tggaggcagg tccactttgc tgggaccagg agceccagtg aggccactct gggattgagt 26^40 
ggtcctgccc ctctggctgg . gactgcaga'g ggaggaggac tgttagttca tgtctagaac 27000 
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acatatcagg tactcactga cactgtctgt 
caacagagtg ggtgacgagg gggcccaggc 
cttgaggtgg ctcaggtaag cttcagagtc 
gaagagggag gagctggggc cagttctgaa 
gttaggcaat ggagtaagga aaaaagacca 
tctgggtgac ttggaaatgt cccttgtcct 
gaagatattg ggctggatca ggtacatttt 
gtgggtgccc agtgcaccac attaaaaaga 
agcactataa tcaattagtg atgtctaaaa 
ttcaattagt gatgtctaaa aagggtagaa 
cgcaatcaat tagtgatgtc tgaaatggag 
tccataggtt agctcatctc tgaggtcttt 
tacctccagc ctggtgggga acaacattgg 
gctggcaaag aacgtcatgc tagaagaact 
ggaagtggat cacaatctct gttgatcccc 
cagacaaagg tggatgattg agtgattgac 
tactgagtgg tatgaagctt atagagcctg 
aaatatatgg gtttgctggt ttggtgactg 
gactctgtaa tcaagcaggc cgtgatctta 
agtttcatgt ctgtaaaatg agggtaagaa 
attagataaa gtagtgcctg tgaagacctt 
ccataaatgt taaattagaa taatggcagg 
gctgctgctg ctacaactac tatagtactg 
tttaaagtga ttttgagttc ctaggagcac 
ggtgtaatgg agttttgata gttgaaagag 
tgaagcagat tctaagtttc tcatccttta 
ctgggcagct tcagattatg tcagggagat 
gcagaaaggc actgcaacat atgggcattg 
ctgttgcagg gcttactagc tctactcaag 
ccacttggaa tttcttagta gaggagaacc 
ttaaaagaaa aactttaggc aaattaaatt 
tatgaattgg gcagcattca gaactgggag 
tctatagaca ggaaaaggaa gtgatgtaca 
tgccttatat gggcatggtg tgatgaggca 
tggtagactg tgactgactg aagcctggct 
tataaggata tgttgttagg ttgcagtttg 
ctcaggccaa atttagttta actatatgtt 
tagaggttta aacaaggaaa gggtttattt 
tgtagggttt gtacagtggc tacaagaggc 
ttcctgttcc atcatcctta gcctgtaact 
caggatggct gctccaggtg cagcactact 
aggaaagcca tctgggttct ctcctttaaa 
tccccttatg tatcaaccat gtgtatgtca 
cagccctggc, tgcaatggag agtgggaaat 
aaatgaaatg agacttccat taataaggaa 
ggatcaggga acttattaca ttgagagccc 
tggaattgag aatccccaca acgtctttat 
ttcagatgtt ggatttccta tatggggggc 
ttgtatcaac tggattttct ctcttcttct 
tgaaggtgta tgttctct.cg cagaaggact 
gtaaggaacc cataagcagg aaacaggaca 
tgattaagat c'tgggccg'ct ctccgctgg^ 
gcttgccttg gjbctaggtgg acaaggattc 
ccagtaaatg ctgataggag agtggtgaag 
ggggagttat caagccagtt atcaatgagg 
ctggagccag tgcagaacac acatggtcac 
catttatcca ccaaccctct gtccttccta 
tccagcactt ccagctcacc ctcacccagc 
cteaggcaga gagtggcagg tcttctctgc 
gagtaptgtg gcctcctcca gtggctgact 
tggacagctc aggtgaacat' gaacccacct 



tgactctttt ggccttttca gattctgggg 27060 
cctggctgaa gccttgggtg atcaccagag 27120 
tatcctgcag ttttcttggg gagatcaggt 27180 
ggtctttgaa ctttatttct accccacaat 27240 
ttggatttca agagaggaca cttgagtctt 27300 
ctcagggttt tgatacagta tctgtaaatt 27360 
atcttaaggg ccaattccaa tccattggta 27420 
attctaaggc tgcacctggg cttaaagaag 27480 
aagctaaaaa aaaaaaaaaa gagcactgca 27540 
aaaaaaaaaa aaagaaaaaa gaaagagcac 27600 
cagaccagga gagcaccacg aattttgccc 27660 
ccctgctctg acatactttt gttccatgat 27720 
cagtgtgggt gcccaagcct tggcactgat 27780 
ctggtgagtt tgggggattc tctgctctgg 27840 
tggcctcatc cataggagcg gttgtgtgga 27900 
tgattgattg attgtgtttg tctttatatg 27960 
gtatgtacat gctaattttt ttatttaata 28020 
cctccacatg gcataagtgt taagagcaca 28080 
ggcaagttaa ataacaattt cagaatctca 28140 
tacttccaac cataaaggat ttttgcaaga 28200 
aatatagtgc ctggcatatt tgtaagtgct 28260 
gttactacta ctattactgc tgctgctgct 28320 
tgactactac tactaataaa gttttgttat 28380 
tgggtattca agtcttaggt cattttggaa 28440 
gaaccatgaa tcatgcttat actgttgacc 28500 
gatgccacta gtatagtttt ctgacatgtt 28560 
aaaatactga atgtttgatt ttcccgggaa 28620 
ccataaacag attttatgga tggaccttgg 28680 
tatgattgat tctatcctga ctggattttg 28740 
ttgttatgag agcatcagtt atgattactg 28800 
tagcagaact ggtttgaaca tacagcaatt 28860 
tgctccaccc agcaaggtag gcaagcagta 28920 
aaacagcttg attggttgca gctgggcatt 28980 
ttttctttat atggatatag actgatcagc 29040 
gctgtgattg gctaagactt agctgtttgt 29100 
ctacatagga actcaaagta cagaggcagt 29160 
aagctgcagg tgacagaata cctccatcta 29220 
tttcctgtat aggcagctgg atgtaggcag 29280 
caggaggggt ctcagctctg tctcattctc 29340 
tcattcacat ggttggttgt ctcatgatca 29400 
tctgtattcc cggattcgat ctatataccc 29460 
aagcattcct ggaagcccca cctgtcgact 29520 
cttgaccaac ccacttgtat gttgtttgac 29580 
acagtttttt caccaagtgc atggctgtcc 29640 
gaaaggaaag atggagatca ggaagctggg 29700 
ttggagtgaa ttctcttgca aatatgtccc 29750 
ctgttctttc tttatccatg agtttgggtt 29820 
atgtgagttc atcatcttcc ataatcaatg 29880 
caccagcctg gaggagaacc atctccagga 29940 
gaagaaaaat tcaagtttga aaatcctgaa 30000 
ataattgctg gcctttggaa ggggcatttc 30060 
ctaactcatg tgaggtggcc tggtagaaca 30120 
cagt'gcaagt tgtttatctg ggaggtggtc 30160 
tgagatgggg aagtgaaggt aaccaataaa 3024 0 
gaaattggag ctcagtactc tggggcactc 30300 
ctacccaacc. aatgggcaag aaagccatgg 30360 
tgttgatgtg cgctcat'ggg gcactgattc 30420 
tgaacatgct tctggggtca ggagaatggc 30480 
aagcagtggc tggggaggtg atgtgatggg 30540 
cagtggcttg ggacttgtgc cacaaagaga 30600 
agtgaccatc atgggtttgt cagggtgctc 30660 
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tctgaggctg atgccaaaat tcttatttca 
ccttttgctg gaggaaagtg gcatctgcct 
ctttagagac agacagacag acagctgcct 
tacccactct ggcgacactc atttgtgttg 
tggagaaaac acttccacta attatttggg 
ccggatgtgt ctgagccaga tgccagcttt 
gcccattatc aaccaggtgt ggatatggca 
ctccacttga ctcccatgga tgccaggcaa 
tcatcagcct tatttttcag catcctaaac 
gatatatctt ttataaaaaa gagaaatgcc 
ccaagagttg gttgagagcc caggcttgct 
cactttggga ggctgaggcg ggtggatcac 
caacatggag aaaccccatc tctactaaaa 
acctgtaatc ccatctactc aggaagctga 
gaggttgcca tgagccaaga tcacaccatt 
catctcaaaa aaaaaaaaaa ggatgagaaa 
ctggaaccag acagcctggg tcttacccct 
atgagtgcct cagttgcctc aagtgtaaat 
catgagcatt cactgagaga atgtagctaa 
aattgtggtt tcagaccatg aactttaaat 
taatcaaaat aggaaccatt aaaatcaaca 
attcctgtag cataaaaatt catgcttcgg 
gcatcctcct ggttgtggaa gcatttttcc 
tggtagtcag ttggctagag gtcaggtaaa 
aattcattca acttttgaag ctttggttgt 
aattggaccc tttctgttga cgaatgccgg 
attgacttgc cgagcatact tctcatatgt 
ggggatcaga ctagcagcag accaccagtg 
gcctttggga agtgctttgg agcttcttct 
ttgtataaaa tccacttttc atcgcacgtc 
ttgtgtagaa taagagaaga tgacacttca 
tcatgaggca cacacttatc gaggtttttc 
accatggaat ggtcgatgtt gagttctcaa 
gctctcaatt ggtcattgtc agcttctgat 
ctcttatctc cttcgcaaaa cttcttgaac 
cctgggccaa atgcattgct gatgttgtga 
aattcaaata agaaaattgc ttgaatttgc 
aataaatata aaataaacag aaagtattaa 
tgtgcattaa aatgatgtat agcataacca 
atggcaaatt tcaacaatgc aaaaactgca 
aataaatact ggcaattaca attggcattg 
aattgtggga aagggggagg acctggagtg 
aagagcaacc tgggaaacac atgactcctc 
cctccctgtt gtcagctacc tcatatgttc 
ccccctgaaa atagaaatat tactgctcat 
tagtccgttt tcatgctgat gataaagata 
gagttttatt gaacttacag ttccacgtgg 
tgaaaggcac atctcacatg gcagcagaca 
ctttttaaaa ccatcagata tcatgaaact 
caattacctt ccactgggtc gctcccacaa 
acacagccaa accatatcaa gtactgtgca 
cttcccagca agcagagtgt ggggaggtaa 
ggacccatgc cacaaggaga tggatggtgg 
caattt'agat tcttatgctc gatggcacgg 
gagattggga ctaatttgct cgagatcaaa 
aggatgtcta gcactaaaat gcaggtactt 
tttgataaac -tcatctagtg aatggaagag 
cctttgttga .tgagctcatt gggaatctca 
•tgggcttcag tagactggct aactcctgca 
aaccaagaat ccttgaagct caccattgta 
tcacctacct aggggcagaa gccctcctgc 



agtagacctc aggaacccca tcagatggct 30120 
aggcaaatgt ggtcctagga aaacgcttgc 30780 
ctgtgagtgc cagctttgct gccaggctgc 30840 
ctttcacaag ctaggaagtt tccaaatatt 30900 
tggaaatggg ctgggaagtt ggggtgaagc 30960 
gcactgaggg tcggcctttg ggaataccaa 31020 
ggtttgtctt ccctccttgt cacagcctta 31080 
tgaggctggg gttggtccca tgccaccctg 31140 
tatatcatcc cccacaaaaa ttgaacttct 31200 
tacatctttc ttttccagga ttagtttctg 31260 
gggtgcagtg gctcacacct gtaatcccag 31320 
ctgaggtggg gagttccata ccagcctgac 31380 
atacaaaatt agccgggcgt ggtggcatac 31440 
ggcaggagaa tcacttgaac ctgggaggtg 31500 
gcaccctaga ctggacaaga gagaaacttc 31560 
aataataatt taaaaaaaag agtccaggct 31620 
gctccaccat taccagccag ttcttcttgg 31680 
ggagataatg gctggacctt cattataggc 31740 
caaaagtgag ttgtaggttg gagcaaaagt 31800 
tattataact aggctaaaat acatctttat 31860 
catttttgcc aataagaaat aagtttgttt 31920 
gattcaacaa actcttggaa agcattttct 31980 
tgcagaaagt tgtcaagatt cttgaagaaa 32040 
tatggcggat gaggcaaaac ttcatagtcc 32100 
gtgacatgca gtccggttgt tgtcgcggag 32160 
ttgcaggtgt tgcagttttc agtgcatctc 32220 
aatggtttcg cagggattca gaaagctgta 32280 
accatgacct tttttttttg gtgcgaattt 32340 
cggtccaacc actgagctag tcattgccag 324 00 
acaatcagat caagaaatgg ttcgctgttg 32460 
aaatgacgat tttcttggtt ttcactcagc 32520 
acctttccaa tttgcttcaa atgctgaatg 32580 
gtagttgtaa gaaaatcagc tttgatgatt 32640 
ggcctgccag tacactcctc atcttcaagg 32700 
caccactgca ctatacgtta gttagcagtt 32760 
gttgtctccg ctgctttaca acccattttg 32820 
tttttgtcta acatcatttt catagtctaa 32880 
gtcattagca aaaaatcata aagtgagaat 32940 
catttattta agaatgtatt ccaatatcaa 33000 
attacttttg caccaatcta atagaagttc 33060 
ccttagggtc aacttgtaag acattcctga 33120 
gacattattg gaaggcaaag ctgtaaccaa 33180 
tgttgctgtc cctggcccta tcctgtctcc 33240 
tctaatctct gtctctgtgc cctcaaagac 33300 
tggttatttt ctatcaatta agtactgtat 33360 
tacccaagac tgggcacttt atgaaagaaa 33420 
ctggggaggt ctcacaatca tggctgaagg 33480 
ggagaagagg gcttgttcag ggaaactccc 33540 
tatttactgt aatgagaaca ggatgggatt 33600 
cacgtgggaa ttcaagagat ttgggtgggg 33660 
agtgttttag gcatgcagag agtggtgggt 33720 
tgggggactg gtggctgact taatggccca 33780 
atgtgaatag gagcctgctt acacccatca 33840 
gtactctttt aggcccattt taccaatgag 33900 
aaagaagtgg tgtaggtggg atttaaaccc 33960 
aaccactatc ctaagggagt ggctacttaa 34020 
agacggttac at.ttcactga tggtactgag 34080 
gacatgagca ggatgtgtct aagggacagg 34140 
gtctctttaa ctggacagtt tcaagaggaa 34200 
tcttcttttc- caggttgtcc aataactgca 34260 
aggcccttga aaggaatgaC accatcctgg 34320 
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aagtctggta aggcccctgg gcaggcctgt tttagctctc cgaacctcag tttttctatc 34380 
tgtaaaatgg ggtgacggga gagaggaatg gcagaatttt gaggatccct tctgattctg 34440 
acattcagtg agaatgattc tgcatgtgaa ggatctgatt ctctgtctaa gaaagaagtc 34500 
tttacctctt taagtaggga gcaatgattt catttttaaa ccttgactat ttattcagca 34560 
acttctctgc tctatgagat agtgtaggaa tggggatgtg gttgaagaat gaaaagaaaa 34620 
gtcagctccc gccctcctag aaattgcatc tgccttcaca ggtcaaggat attggatcag 34680 
accttctgcg gttctgaatg gagattacac aggttaggag caggttgcac agtgtttcca 34740 
attctctata attaaagcca tagactttca tgtattgaaa aaagcaagaa ttgcattctt 34800 
gacagattct ttcattgcct taaaaagaat gactagcctt gggagtctgg gcagctgggt 34860 
ccagtgttgt agactttctc tctgctgagc cacagcttca aagatttgtc cttcttgttt 34920 
ccagggatct atttctcaga caataagtaa aggctttccc tggcctaatg tgctgtaagt 34980 
gaatgctact atatatgttc caggcactgg gctagagact aatatttaaa agccaggaaa 35040 
tttcctatag aaaatctata tctcagggtt ttctcaaaag agctgggaac tctggatgcc 35100 
cattcatgat tccagtagtt aaccagagta caagaagggc tgagtcttct cagatgggca 35160 
aacccactct ggctgactgc agatccacca agcctattgt cttagaccag gaccctttgg 35220 
caactcattc ccataagcct gtgacccttg ctttaaatat gcaggccttg tcttctctca 35280 
aaaagcacat caaggctgca gcgaatgcag atatcaaatg atgaagttaa aaacaaaagc 35340 
tttgctgggc gtggcagctc acacctgtaa tcctagcact ttgggaggct gaggcaggag 35400 
gatcacttta ggccagaggt tcaacaccag accttgtctc tcaaaaaata aaaaattcag 35460 
ctgggtgcgg tgtagttcct agccacttgg gaggctggga tggaaggatc ccttgaaccc 35520 
aggagttcaa ggctgcagtg ggccatgatt gcatcactgc acaggcgaca gaattagatc 35580 
ccatctctta aaaaaataaa aaatttaaaa gtgacttcaa aaatctatgc tgtgatggag 35640 
agatttttcc ttctgtatga ttgtgatagc tctgtggcct atgacgtcat caggttctgg 35700 
gcaaagtgta ggttttctgt ttctttgttt ttgaaaccat tgcacagtcc taagaaacat 35760 
cacattctgg gtcctgggca ccagccaaca tgaggtgagg gcaccagggt ttgctcattg 35820 
cattcttgac agattctctt attgccttaa aaagaatcac tggccttggg gagtctgtgg 35880 
ctggctgggt gcagtgttgt ggactctctc tgcagagtca tggagccttg ttcagaatgc 35940 
ttcctgagct gccctggttg gccaagggta aaaacagccc tgacttccct gcaagaaaca 36000 
ctgcagctgg gccagagagt cagcccatcc caggcatggg tttaaaaagt ggaggctttt 36060 
gtttgaaagc cctgctctaa ttttgtcctc actcaaacct ctgttcactt gatctgcttt 36120 
aggctccgag ggaacacttt ctctctagag gaggttgaca agctcggctg cagggacacc 36180 
agactcttgc tttgaagtct ccgggaggat gttcgtctca gtttgtttgt gagcaggctg 36240 
tgagtttggg ccccagaggc tgggtgacat gtgttggcag cctcttcaaa atgagccctg 36300 
tcctgcctaa ggctgaactt gttttctggg aacaccatag gtcaccttta ttctggcaga 36360 
ggagggagca tcagtgccct ccaggataga cttttcccaa gcctactttt ' gccattgact 36420 
tcttcccaag attcaatccc aggatgtaca aggacagccc ctcctccata gtatgggact 36480 
ggcctctgct gatcctccca ggcttccgtg tgggtcagtg gggcccatgg atgtgcttgt 36540 
taactgagtg ccttttggtg gagaggcccg gcctctcaca aaagacccct taccactgct 36600 
ctgatgaaga ggagtacaca gaacacataa ttcaggaagc agctttcccc atgtctcgac 36660 
tcatccatcc aggccattcc ccgtctctgg ttcctcccct cctcctggac tcctgcacac 36720 
gctccttcct ctgaggctga aattcagaat attagtgacc tcagctttga tatttcactt 36780 
acagcacccc caaccctggc acccagggtg ggaagggcta caccttagcc tgccctcctt 36840 
tccggtgttt aagacatttt tggaagggga cacgtgacag ccgtttgttc cccaagacat 36900 
tctaggtttg caagaaaaat atgaccacac tccagctggg atcacatgtg gacttttatt 36960 
tccagtgaaa tcagttactc ttcagttaag cctttggaaa cagctcgact ttaaaaagct 37020 
ccaaatgcag ctttaaaaaa ttaatctggg ccagaatttc aaacggcctc actaggcttc 37080 
tggttgatgc ctgtgaactg aactctgaca acagacttct gaaatagacc cacaagaggc 37140 
agttccattt catttgtgcc agaatgcttt aggatgtaca gttatggatt gaaagtttac 37200 
aggaaaaaaa attaggccgt tccttcaaag caaatgtctt cctggattat tcaaaatgat 37260 
gtatgttgaa gcctttgtaa attgtcagat gctgtgcaaa tgttattatt ttaaacatta 3732Q 
tgatgtgtga aaactggtta atatttatag gtcactttgt tttactgtct taagtttata '37380 
ctcttataga caacatggcc gtgaacttta tgctgtaaat aatcagaggg gaataaactg 37440 
ttg 37443 



<210> 4 
<211> 1315 
<212> ADN 

<213> Homo sapiens 
<220> . 
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<221> CDS 

<222> (117) (1118) 

<400> 4 

cgatcagaag caggtcacac agcctgtttc ctgttttcaa acggggaact tagaaagtgg 60 

cagcccctcg gcttgtcgcc ggagctgaga accaagagct cgaaggggcc atatga cac 119 

His 
1 

tec tec egg acc cot gga cac aca cag ccc tgg aga ctg gag cct tgg 167 
Ser Ser Arg Thr Pro Gly His Thr Gin Pro Trp Arg Leu Glu Pro Trp 
5 10 15 

age atg gca agt cca gag cac cct ggg age cct ggc tgc atg gga ccc 215 
Ser Met Ala Ser Pro Glu His Pro Gly Ser Pro Gly Cys Met Gly Pro 
20 25 30 

ata acc cag tgc acg gca agg acc cag cag gaa gca cca gcc act ggc 263 
He Thr Gin Cys Thr Ala Arg Thr Gin Gin Glu Ala Pro Ala Thr Gly 
35 40 45 

ccc gac etc ccg cac cca gga cct gac ggg cac tta gac aca cac agt 311 
Pro Asp Leu Pro His Pro Gly Pro Asp Gly His Leu Asp Thr His Ser 
50 55 60 65 

ggc ctg age tec aac tee age atg ace acg egg gag ett cag cag tac 359 
Gly Leu Ser Ser Asn Ser Ser Met Thr Thr Arg Glu Leu Gin Gin Tyr 
70 75 80 

tgg cag aac cag aaa tgc cge tgg aag cac gtc aaa ctg etc ttt gag 407 
Trp Gin Asn Gin Lys Cys Arg Trp Lys His Val Lys Leu Leu Phe Glu 
85 90 95 

att get tea get cge ate gag gag aga aaa gtc tet aag ttt gtg gtg 455 
He Ala Ser Ala Arg He Glu Glu Arg Lys Val Ser Lys Phe Val Val 
100 105 110 

tac caa ate ate gtc ate cag act ggg age ttt gac aac aac aag gee 503 
Tyr Gin He He Val He Gin Thr Gly Ser Phe Asp Asn Asn Lys Ala 
115 120 125 

gtc ctg gaa egg cge tat tec gac ttc gcg aag etc cag aaa geg ctg 551 
Val Leu Glu Arg Arg Tyr Ser Asp Phe Ala Lys Leu Gin Lys Ala Leu 
130 135 140 145 

ctg aag acg ttc agg gag gag ate gaa gac gtg gag ttt ccc agg aag 599 
Leu Lys Thr Phe Arg Glu Glu He Glu Asp Val Glu Phe Pro Arg Lys 
150 155 160 

cac ctg act ggg aac ttc get gag gag atg ate tgt gag cgt. egg. cge 647 
His Leu Thr Gly ASn Phe Ala Glu Glu Met He Cys Glu Arg Arg Arg ■ 
165 170 175 

gcc ctg cag gag tac ctg gge ctg etc tac gcc ate cge tgc gtg cge 695 
Ala Leu Gin Glu Tyr Leu Gly Leu Leu Tyr Ala* He Arg Cys Val Arg 
180 185 * ■ 190 

cge tee egg gag ttc ctg gac ttc etc acg egg ccg gag ctg cge gag 743 ■ 
Arg. Ser Arg Glu Phe Leu Asp Phe Leu Thr Arg Pro Glu Leu. Arg Glu 
195 200 205 
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get ttc ggc tgc ctg egg gcc ggc cag tac cog cgc. gee ctg gag ctg 791 

Ala Phe Gly Cys Leu Arg Ala Gly Gin Tyr Pro Arg Ala Leu Glu Leu 
210 215 220 225 

ctg ctg cgc gtg ctg ccg ctg cag gag aag etc acc gcc cac tgc cct 839 

Leu Leu Arg Val Leu Pro Leu Gin Glu Lys Leu Thr Ala His Cys Pro 
230 235 240 

gcg gcc gcc gtc ccg gcc ctg tgc gcc gtg ctg ctg tgc cac cgc gac 887 

Ala Ala Ala Val Pro Ala Leu Cys Ala Val Leu Leu Cys His Arg Asp 
245 250 255 

etc gac cgc ccc gcc gag gcc ttc gcg gcc gga gag agg gcc ctg cag 935 
Leu Asp Arg Pro Ala Glu Ala Phe Ala Ala Gly Glu Arg Ala Leu Gin 
260 265 270 

cgc ctg cag gcc egg gag ggc cat cgc tac tat gcg cct ctg ctg gac 983 

Arg Leu Gin Ala Arg Glu Gly His Arg Tyr Tyr Ala Pro Leu Leu Asp 

275 280 285 

gcc atg gtc cgc ctg gcc tac gcg ctg ggc aag gac ttc gtg act ctg 1031 

Ala Met Val Arg Leu Ala Tyr Ala Leu Gly Lys Asp Phe Val Thr Leu 
290 295 300 305 

cag gag agg ctg gag gag age cag etc egg agg ccc acg ccc cga ggc 1079 

Gin Glu Arg Leu Glu Glu Ser Gin Leu Arg Arg Pro Thr Pro Arg Gly 
310 315 320 

ate acc ctg aag gag etc act gtg cga gaa tac ctg cac tgagccggcc 1128 

lie Thr Leu Lys Glu Leu Thr Val Arg Glu Tyr Leu His 
325 330 

tgggaccccg cagggacgct ggagatttgg ggtcaccatg gctcacagtg ggctgtttgg 1188 

ggttcttttt ttttattttt ccttttcttt tttgttattt gagacagtct tgctctgtca 1248 

cccagactga agtgcagtgg ctcaattatg tctcactgca gcctcaaact cctgggcaca 1308 

agcaatc 1315 



<210> 5 
<211> 334 
<212> PRT 

<213> Homo sapiens 
<400> 5 

His Ser Ser Arg Thr Pro Gly His Thr Gin Pro Trp Arg Leu Glu Pro 
1 -5 10 15 

Trp *Ser Met Ala Ser Pro Glu .His Pro Gly Ser Pro Gly Cys Met Gly 
20 25 30 

Pro lie Thr. Gin Cys Thr Ala Arg Thr Gin Gin Glu Ala Pro Ala Thr 
35 40 45 

Gly Pro Asp Leu Pro His Pro Gly Pro Asp Gly His Leu Asp Thr His 
50 55 60 

Ser* Gly Leu Ser Ser Asn Ser Ser Met Thr Thr. Arg Glu Leu Gin Gin 
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Tyr Trp Gin Asn Gin Lys Cys Arg Trp Lys His Val Lys Leu Leu Phe 
85 90 95 

Glu He Ala Ser Ala Arg He Glu Glu Arg Lys Val Ser Lys Phe Val 
100 105 110 

Val Tyr Gin He He Val He Gin Thr Gly Ser Phe Asp Asn Asn Lys 
115 120 125 

Ala Val Leu Glu Arg Arg Tyr Ser Asp Phe Ala Lys Leu Gin Lys Ala 
130 135 140 

Leu Leu Lys Thr Phe Arg Glu Glu He Glu Asp Val Glu Phe Pro Arg 
145 150 155 160 

Lys His Leu Thr Gly Asn Phe Ala Glu Glu Met He Cys Glu Arg Arg 



Arg Ala Leu Gin Glu Tyr Leu Gly Leu Leu Tyr Ala He Arg Cys Val 
180 185 190 

Arg Arg Ser Arg Glu Phe Leu Asp Phe Leu Thr Arg Pro Glu Leu Arg 
195 200 205 

Glu Ala Phe Gly Cys Leu Arg Ala Gly Gin Tyr Pro Arg Ala Leu Glu 
210 215 220 

Leu Leu Leu Arg Val Leu Pro Leu Gin Glu Lys Leu Thr Ala His Cys 
225 230 235 240 

Pro Ala Ala Ala Val Pro Ala Leu Cys Ala Val Leu Leu Cys His Arg 
245 250 255 

Asp Leu Asp Arg Pro Ala Glu Ala Phe Ala Ala Gly Glu Arg Ala Leu 

260 265 270 

Gin Arg Leu Gin Ala Arg Glu Gly His Arg Tyr Tyr Ala Pro Leu Leu 
275 280 285 

Asp Ala Met Val Arg Leu Ala Tyr Ala Leu Gly Lys Asp Phe Val Thr 
.290 295 300. 

Leu Gin Glu Arg Leu Glu Glu Ser Gin Leu Arg Arg Pro Thr Pro Arg 
305 310 315 32.0 

Gly He Thr Leu Lys Glu Leu Thr Val Arg Glu Tyr Leu His 



<210> 6 
<211> 8135 
<212> ADN 

<213> Homo sapiens 

<220> 

<221> exon 
.<222> (1) (161) 



165 



170 



175 



325 



330 



23 



wo 01/72822 PCT/FROl/00935 

<220> 

<221> exon 

<222> (3812) . . (3950) 

<220> 

<221> exon 

<222> (5426).. (5577) 

<220> 

<221> exon 

<222> (7273). . (8135) 

<400> 6 

cgatcagaag caggtcacac agcctgtttc ctgttttcaa acggggaact tagaaagtgg 60 
cagcccctcg gcttgtcgcc ggagctgaga accaagagct cgaaggggcc atatgacact 120 
cctcccggac ccctggacac acacagccct ggagactgga ggtcagtatt tgatcccaag 180 
ctcagctgtc ctctgcctgc tgtggcctga gtccccttct cctggggccc tgcctggcac 240 
ctgctggggg cagggtggga gggggaagag ttagtgacag ccgctgtgtc tggagctctc 300 
cttagcacac tgaggcagag gaagggacag ctcctggacc ttccatcacc tccattcctt 360 
ttgaaatgct aggcgcttgt acaacccatc ttgggcctgg agaataagtc accacacctg 420 
tgtttctcaa aagaacagtg tcagggaacc cctgcctcag cacagcctta gaggactcat 480 
ggaaaatgca gaatccaggc ctgttcaatg gcaccttcct atgttagcag ccaggaaacc 540 
tgctcttgga caagcccctg ggatcccacc cccaccccac caggggattc ttacacacac 600 
tgggttggga gcccctggct ttggcaaggc ttctcaggtg agcgtccagt tgttggaggg 660 
tacccaccct ttccccaaga gaggcagcca cacatccaac atcctgggat ctctgtctcc 720 
cagcgtgggc catgtgcttt atttcacccc ctagaggctc atcccccatg aaaagtcctc 780 
cgcaggccct cagaaagata gtgtggcctc tgtgtgccca gcagaagaag gactggactt 840 
ggcagtcagc tcttggagag ggggtggtta ggacacctgg ggacaggagg aggagaatga 900 
ctgtctgtgc acacacggct ggaaggtaca ggaggctggg aagctgctct gtcccctggg 960 
ccaactacag gcccccaggc caacagcaac aacactttta gtattttgtt ataaagtcaa 1020 
gaaatctttg ctacagaggg tgaggagagg gaaggaaagg gccatggaac cgtctatgtg 1080 
gctatcccca gagagctttt agagtgacag gattgctttc ccatttcaca gatgaggaaa 1140 
ctgaggcctg gagagggatg ggaagctacc caaggcccca tggatacacc agtgcacaac 1200 
tctttccttc cccctcctct ttaaatgggt gattcccaat gaaacctgta agagacaacc 1260 
ataagggagc tgactgtggc tgctgaattt gattttattc taaggcctgg ttttataatc 1320 
agctttctca gtctttactg gagtgtcaag ccgaggcatc atttctaggg tcttacaggg 1380 
tctctgggcc aatagtgccc tgcttctgac ctggagccag ctgcctggtc atgaaagcag 1440 
atctgcaaag gctggggccc ctgaggccaa ggccactcgc catcacccat tttacagaag 1500 
tgctgagcat aggagtgccc tgggccccca agaatcccag ccaccaagaa tcacgtaaac 1560 
catccactgt ctcacttagg caccagtcag aatgtaggga acccacccct agtcatccat 1620 
catcttatca acaggacggg gcttgtagcc acatttatca ggtagggaaa ctgaagccta 1680 
gagatattaa agcacttgct taaggacaca cggttggtca ggatggaagg cgatgtctcc 1740 
tgactccctg acaggcacaa gagacaagcg agaggtgccc gtgacggcat gctcaagaac 1800 
gtgcagccct gggccagcca ggcccctgct ccgtgcctct gtttgcccat ctgtaaaagg 1860 
tgaggttgga tcgagggtcc ctgagggccg cccactggat ggctgtgcag agccaaacgg 1920 
agaaggcccc agggttcctt tcacccgaca cagcaagcac ttccccctga agtgcaggct 1980 
ccaggcccca gctgacctcc cctctcccag gccagcggct ctcacccctg gagcaaggga 2040 
caggcgctgg ctgtgctcag ggacatgcat gactcccgcc cccatctgtg ctcagggggt 2100 
gccagggagg cactggctct atctttctct aggccgtagt cagcccaggg gttcagacca 2160 
agagccpaga atccaacaga tcagagttca agtcccagct ctacctctat gttccactgg 2220 
cagcttcctc aggtcatttg caccttcctt gtcttgaatt tccatgccta accagtatac 2280 • 
cagctactcc ctccagccga tctaatgttt taattgtccc ttt'ctctaag ttgtctcaaa 2340 
catttgtaat tctattccaa tccaccttaa tttagtcatt tatttcacaa atatttctgg 2400 
aaacatctag cacttaacag acactaaaag cgggggtact a'cacagtccc tgggatggac 24 60 
agggccctga gctgaggctt cagagtctgc ctgactgaat cctcacccca gccttgtgaa 2520 
cgtgggttct gttattatcc ccaatttata ggaaacagaa gcacagagaa gttgagtcac 2580 
ttgccagcta ccaggtcatc ccttccactt atccgggtca cagacagagt tattatgtaa 2640 
accagatccc agctgcctgt tctccctccc tgagtaaggt ggagagaatt ctgaagtcag 2700 
cccagcctgg gtctgtatcc tgcccaccac tcaccagctc ctcatctttg gcaactctaa 2760 
gtctcagttc ccttatcata aaagggagat gtaaacagtc ctgagtgcag acagtgttca 2820 
ggttagtgca agagtgtgtg ctgggtgtga agtgcacagc cagcacgtca caagcactgg 2880 
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agacaaattc agctttgctt gttgcgcaca 
tttctcatct gttatgtggt ggtaatgata 
gctatggaga acctagatgg gtatgaagtg 
atagatagat tattgattga ttgatcgata 
aacactgacc tttctttttt tctttttgag 
gcagtggcat catcatagct cactgcagcc 
tctcagcctc ccaagtagct gggaccacag 
tttctagaga cggggtctca ctacattggc 
gatccttcta acccagcctc ccaaagcgct 
cttgaacact gagacttcat tcgcatgtgt 
catctttctt tcaagtaatc actaaagcca 
actctgagca atacgtaagg atcacctcaa 
gtcttctctg ccttggagta acctgcccag 
cagctgggag agtggggaag gttgagccgt 
gagggggcat gacacagctc ctaggcaccc 
ggtcctcact gttctctttt tcctctggca 
tgggagccct ggctgcatgg gacccataac 
accagccact ggccccgacc tcccgcaccc 
ggcttgagac tcggtctggg ggagaggtct 
tttgggggat gcagcaagag gcccgggcag 
cactgagaca cagatctagt gcaagctgtt 
aggggagtgg gaatggaagg aaagggcaag 
ggcacggtag gtggctgaag ctcaacccca 
atctctgggt tgtcctatcc taggggtgag 
ctgcatagga gaagggacgc tcctgggcct 
agccagtggc atgttctgga aaagtgggtg 
gacagcatct gctgtagtgc catctcctgg 
gccctattca atacctgctc tgttcctggc 
ggaagaaatc aaacactgca ctagtcctga 
cagttacacg tgccacgaga aataaataaa 
gaagctctta ctctaatgcc aaggggcatt 
gtagactgga aaagggctgg gacccatgcc 
ttcttaagaa cctcagagtg gcgcagggct 
tttccaggcg tggaaataga gggttggatg 
cccggcatgt gggcagttag atgagaaggt 
ataacatcct cctcactgcc tcccctgccc 
agtcacgaag tcagggctgc agggagcaca 
cagagcaggg atttcaccat ggccaatcta 
gcaccgcatt ccaaagctgt gaaaccactt 
ggtagggtgg attctgccag gctgggcaca 
taaatggcgg ggtgggagag agggatattc 
tcagatagac ccagccatct ccccaagccc 
atccttaagg gtgttgtcct tccagacaca 
accacgcggg agcttcagca gtactggcag 
ctgctctttg agatcgcttc agctcgcatc 
agcagagatt gggaaatggt ggagcctctt 
gtcttgtaga gcctcaggtt tcccaactat 
tcttctggag aaaatggcca aagagcaaga 
aggattcgaa ccatataagt catatttctt 
cccatcttat caggtgtcag tcacctgtgt 
tatctgttct aattattatt acttattttt 
tgaagcacat ttatttca^a gagaaatacc 
aagcaaaagt aacatactag aaaagtcgat 
tgctgttatt aaattctagc tggttactgt 
gctcctctcp ctgttagaat ggaattttag 
agagccacac ttcatccttc tccttcactf 
cactgaatgc caatggcatg ccgggcacag 
taatcctcac tgggtgaggt aggcactatg 
agactcggag aggttaaatt actcatctaa 
aattacaacc catgcaatct ggctctggag 
atataattgc ccgtaatcag .gattctct.tg 
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ctcaccagct gcgtgacttt agacctcagt 2940 
gacttttgtg agcattaaac tagattaggg 3000 
ggtataataa gctatcagtt aattttgctg 3060 
gaagattcat accagtatct acctgctctg 3120 
atggtcttgt tctgtcaccc agactggagt 3180 
tcagtctctt gggcttaagg gatcctcctg 3240 
gcgtgcatcc tggataattt ttttttattt 3300 
caggctggtc tcaaattcct gggctcaagt 3360 
gggattacag gcatgagtgg ccatgttcaa 3420 
aacataaaac tgagtatcta gacaagccag 3480 
atacttttac ttgaaatcat ctcatttaaa 3540 
taacatatgg atcatcgcaa taggtgaagg 3600 
caaaggggca gacccagatt tgggatctgg 3660 
ggggcccttg toattccctc tgcctgccag 3720 
caggagccac cgggaacccc aactggagtg 3780 
gccttggagc atggcaagtc cagagcaccc 3840 
ccagtgcacg gcaaggaccc agcaggaagc 3900 
aggacctgac gggcacttag gtgggcttga 3960 
gaagacattc aaagtacaaa tgtgggtcac 4020 
ctcttgtaac ttgggttatc ccaaaacaga 4080 
tatccgggag acggtcctag gagtcatggc 4140 
aggccagggc aggacatcag tgaacagata 4200 
gcgggggtct tctgggagac cctggaacat 4260 
gaagccgggc tgttatctac cagtcctgcc 4320 
gctgctatgg ccctagaaag ccctcaggga 4380 
ccaagagggc acggtccagc ctggggcatg 4440 
aacagatctt ttcttacagt ccttcgagat 4500 
cctatgcagg gcactggaga aacagaaaca 4560 
ggtttggtag agaaacagat cagtgagaaa 4620 
taaaatgaaa aacctgtagg aacaaggtgg 4680 
tgcagtgatg tgggggctgg gtcttgaagg 4740 
ctttgcaata aaatgcacaa ttatttgtgc 4800 
caagtggggt ttaagaaaca ctgtgttcgt 4B6Q 
caaggcagag cagtgcacgt ccgagaagag 4920 
taggaagggc cagcccgctg aggctggaac 4980 
actgatgtgt gctcaaggag tcgtggcaac 5040 
gaaacacaca agccaccgtc tctgcttgtc 5100 
cagaccagaa gtggacgatg caaagtgccc 5160 
gggggtgatg ggctatttgg gattgtcggt 5220 
gaggtctgtc tgatgcccca attgggccta 5280 
aatactcttc aggagttctg atatgccatc 5340 
atgcctcgga agtgcactga cagggtgcag 5400 
cacagtggcc tgagctccaa ctccagcatg 5460 
aaccagaaat gccgctggaa gcacgtcaaa 5520 ' 
gaggagagaa aagtctctaa gtttgtggta 5580 
tcactctgct tccttcctgg ccctgaataa 5640 
gaaatgggtc aacacactaa ctcacagctt 5700 
tttcaggctc agcacctgct agggtctgtg 5760 
ggtcccaaga aggaaatagc ccagtttaat 5820 
cctttcttca ccaattttgc catatcactg 5880 
ttctttaaat tggatcactt tttaaaaaca 5940 
ttaaatggaa aaccaatatc acatggcaca 6000 
acaaggaaag tcaatacaag gaaagctatg 6060 
ggcttcggga aagccctgtg cctgggagct 6120 
cttgtgttaa gggatgttaa agactgccta 6180 
acctgggacc gggataaata acatagctac 6240 
ctpcatgtgg tttcagtgca ttaactcatt 6300 
cctatccttg ttttatgaat gagaaaagtg 6360 
aaccacacag ctagaccatg gtagggctat 6420 
tcagatgcat gggttataat tgcccttaat 6480 
aaagatgatt gaaaaggatt gattttctta 6540 
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ccatataacg gcatcaccag tgtacctaaa tgatgttata ttgtacgtaa aactaattcc 6600 
caagtgtgaa acatttggaa aacacagcat ctcagttcag aaaacagagg cccagtttta 6660 
gcaagtaaag ccaagaggga ccccagcagc ctgcagggca ggaccctctg ccctttctcc 6720 
tcccagatgt ccccaccttg ctgtgttgtt gttccagggt tgactcagct gatgccaata 6780 
gcaatttaaa acagaattgg gccaggtgca gtggctcatg cctgtaatcc cagcactttg 6840 
ggaggcccag gtaggaggat cgcttgagcc caggagttgg agaccagcct gggcaacaca 6900 
gccagacccc atcttttaaa aagaatcaaa aaatctgcca ggtagtgggt gtgcctgtag 6960 
tcccagctac tcaggaggct caggtgggca ggtcaattga gcccataagt tcaaggttgc 7020 
agtgaggtat gatcgcatca ctgtactcca gcctgggtaa cagtgcgaga ccctgtctct 7080 
aaaaataaat aaataaataa ataaataaat aaataaacaa acaaacaaac aaacaaacaa 7140 
tcaattgcat ataaggatcg cccgttttca gggcatgctt tacaccggcc tggttaactt 7200 
tactctgggt gtgctccgtc cgccgcagcc cccgccggga ggtggccaca gctctctctg 7260 
gttgcgccct aggtgtacca aatcatcgtc atccagactg ggagctttga caacaacaag 7320 
gccgtcctgg aacggcgcta ttccgacttc gcgaagctcc agaaagcgct gctgaagacg 7380 
ttcagggagg agatcgaaga cgtggagttt cccaggaagc acctgactgg gaacttcgct 7440 
gaggagatga tctgtgagcg tcggcgcgcc ctgcaggagt acctgggcct gctctacgcc 7500 
atccgctgcg tgcgccgctc ccgggagttc ctggacttcc tcacgcggcc ggagctgcgc 7560 
gaggctttcg gctgcctgcg ggccggccag tacccgcgcg ccctggagct gctgctgcgc 7620 
gtgctgccgc tgcaggagaa gctcaccgcc cactgccctg cggccgccgt cccggccctg 7680 
tgcgccgtgc tgctgtgcca ccgcgacctc gaccgccccg ccgaggcctt cgcggccgga 7740 
gagagggccc tgcagcgcct gcaggcccgg gagggccatc gctactatgc gcctctgctg 7800 
gacgccatgg tccgcctggc ctacgcgctg ggcaaggact tcgtgactct gcaggagagg 7860 
ctggaggaga gccagctccg gaggcccacg ccccgaggca tcaccctgaa ggagctcact 7920 
gtgcgagaat acctgcactg agccggcctg ggaccccgca gggacgctgg agatttgggg 7980 
tcaccatggc tcacagtggg ctgtttgggg ttcttttttt ttatttttcc ttttcttttt 8040 
tgttatttga gacagtcttg ctctgtcacc cagactgaag tgcagtggct caattatgtc 8100 
tcactgcagc ctcaaactcc tgggcacaag caatc 8135 



<210> 7 
<211> 16 
<212> ADN 

<213> Homo sapiens 
<400> 7 

ctgggtgcga ttgctc 16 



<210> 8 
<211> 16 
<212> ADN 

<213> Homo sapiens 
<400> 8 

ccaggcccca tgacag 1^ 



<210> 9 
<211> 25 
<212> ADN 

<213> Homo sapiens 
<400> 9 

tggtcccggc ccaatcccaa tgctt 25 



<210> 10 
<211> 28 
<212> ADN 

<213> Homo sapiens 
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<400> 10 

ttcctcatgt ataaattggg tgtggcca 28 



<210> 11 
<211> 25 
<212> ADN 

<213> Homo sapiens 
<400> 11 

acagagtgag gaccccatct ctatc 25 



<210> 12 
<211> 25 
<212> ADN 

<213> Homo sapiens 
<400> 12 

tccaactgct gggattacag gcaca 25 



<210> 13 
<211> 22 

<212> ADN 

<213> Homo sapiens 
<400> 13 

agtccccgag accagggcaa ac 22 



<210> 14 
<211> 23 
<212> ADN 

<213> Homo sapiens 
<400> 14 

tccatttctg cagtacacat gca 23 



<210> 15 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 15 

ctctccccat agaaggcatc 20 



<210> 16 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 16 

ggatagagac gttctcttaa 20 



<210> 17 
<211> 20 
<212> ADN 
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<213> Homo sapiens 



<400> 17 

caggctgaat gacagaacaa 



20 



<210> 18 

<211> 20 

<212> ADN 

<213> Homo sapiens 

<400> 18 

attgaaaaca actccgtcca 20 



<210> 19 

<211> 25 

<212> ADK 

<213> Homo sapiens 



<210> 20 
<211> 21 
<212> ADN 

<213> Homo sapiens 
<400> 20 

ggctcagttc ctaaccagtt c 21 

<2ia> 21 
<211> 20 

<212> ADN 

<213> Homo sapiens 



<210> 22 
<211> 20 
<212> ADN 

.<213> Homo sapiens 
<400> 22 

tgaatcttac atcccatccc 20 

<210> 23 
<211> 17 
<2i2> ADN 

<213> Homo sapiens 



<400> 19 

atactcactt ttagacagtt caggg 



25 



<400> 21 

agtcagtctg tccagaggtg 



20 



<400> 23 



gatcttccca aagcgcc 



17 



<21.0> 24 
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<211> 17 
<212> ADN 

<213> Homo sapiens 



<400> 24 

tcccgtcagc caagcta 



17 



<210> 25 
<211> 20 
<212> ADN 

<213> Homo sapiens 

<400> 25 

aagcttgtat ctttctcagg 20 



<210> 26 
<211> 20 
<212> ADN 

<213> Homo sapiens 



<210> 27 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 27 

cctccataat catgtgagcc 20 



<210> 28 
<211> 20 
<212> ADN 

<213> Homo sapiens 



<210> 29 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 29 

ggatgcctgc tctaaatacc 20 

<210> 30 

<211> 19 

<212> ADN • 

<213> Homo sapiens 



<400> 26 
atctaccttg 



gctgtcattg 



20 



<400> 28 
aatctcccca 



actcaagacc 



20 



<400> 30 
cccaggggtc 



aaacttaat 



1.9 ■ 
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<210> 31 
<211> 21 
<212> ADN 

<213> Homo sapiens 
<400> 31 

ggtttgaaag tatctccagg g 21 



<210> 32 
<211> 21 
<212> ADN 

<213> Homo sapiens 
<400> 32 

ggtttgaaag tatctccagg g 21 



<210> 33 
<211> 20 
<212> ADN 

<213> Homo sapiens 

<400> 33 

gtgcatgtgt tcgtatcaac 20 



<210> 34 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 34 

tcatctccaa aggagtttct 20 



<210> 35 
<211> 18 
<212> ADN 

<213> Homo sapiens 
<400> 35 

aaagccaacc ttgcttca 18 



<210> 36 

<211> 20 

<212> ADN 

<213> Homo sapiens 

<400> 36 

tcttggaaac aggtaagtgc 20 



<210> 37 
<2li> 18 
<212> ADN 

<213> Homo sapiens 
<400> 37 
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attgccctca agaacagc 
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18 



<210> 38 
<211> 17 
<212> ADN 

<213> Homo sapiens 
<400> 38 

gtgctatgcc atcccag 17 

<210> 39 
<211> 20 
<212> ADN 

<213> Homo sapiens. 



<210> 40 
<211> 24 
<212> ADN 

<213> Homo sapiens 
<400> 40 

cacactttac acacacctat accc 24 



<210> 41 
<211> 22 
<212> ADN 

<213> Homo sapiens 



<210> 42 
<211> 19 
<212> ADN 

<213> Homo sapiens 
<400> 42 

gcttgggtta aatgcgtgt 19 

■<210> 43 
<211> 20 
<212> ADN 

<213> Homo sapiens 



<400> 39 

ccacaccagc gtttttctaa 



20 



<400> 41 

aagccatatt aggtctgtcc at 



22 



<400> 43 

agcagtttgg gtaaacattg 



20 



<210> 44 
<211> 20 
'<212> ADN 



<213> Homo sapiens 
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<400> 44 

aaatatgcct tctggaggtg 20 



<210> 45 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 45 

ggaggatcag gggagtttat 20 



<210> 46 
<211> 24 
<212> ADN 

<213> Homo sapiens 
<400> 46 

caaagtaaat gaatgtctac tgcc 24 



<210> 47 
<211> 23 
<212> ADN 

<213> Homo sapiens 
<400> 47 

ccaactctgt agtttcaaag age 23 



<210> 48 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 48 

tcacagccta cttgcttggt 20 



<210> 49 
<211> 25 
<212> ADN 

<213> Homo sapiens 
<400> 49 

gacagcctca aatgaaatat aacac 25 



<210> 50 
<211> 25 
<212> ADN 

<213> Homo sapiens 
<400> 50 

gctctcagct agggtagttg tttat 25 



<210> 51 
<211> 25 
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<212> ADN 

<213> Homo sapiens 



<400> 51 

atttttaagg aatgtaaagn acaca 



25 



<210> 52 
<211> 20 
<212> ADN 



<213> Homo sapiens 



<400> 52 

gaccaggagt cagtaaaagg 



20 



<210> 53 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 53 

gtccaaaaca ccaccctcta 20 



<210> 54 
<211> 24 
<212> ADN 

<213> Homo sapiens 



<210> 55 
<211> 19 
<212> ADN 

<213> Homo sapiens 

<400> 55 

tcctctgggg gattcactc 19 



<210> 56 
<211> 20 
<212> ADN 

<213> Homo sapiens 



<210> 57 
<211> 25 
<212> ADN 

<213> Homo sapiens 
<400> 57 

caggaaaata aatctaacac acata 25 



<400> 54 

gaagtagatc agtcatcttg ctgc 



24 



<400> 56 

gggacatcac caagcacaag 



20 
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<210> 58 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 58 

cctgtgggca ctgataaata 20 



<210> 59 
<211> 19 
<212> ADN 

<213> Homo sapiens 
<400> 59 

cccagccccc atctcaccg 19 



<210> 60 
<211> 19 
<212> ADN 

<213> Homo sapiens 
<400> 60 

cccagccccc atctcacca 19 



<210> 61 
<211> 19 
<212> ADN 

<213> Homo sapiens 
<400> 61 

ctgcggagga ggctgctgg 19 



<210> 62 
<211> 19 
<212> ADN 

<213> Homo sapiens 
<400> 62 

tcactcccac caccctttc 19 



<210> 63 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 63 

agaagtttag tgtggcgtgg 20 



<210> 64 
<211> 17 
<212> ADN 

<213> Homo sapiens 
<400> 64 

gccatctccc caagccc 17 
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<210> 65 
<211> 18 
<212> ADN 

<213> Homo sapiens 
<400> 65 

tcgatgcgag ctgaagcg 18 

<210> 66 
<211> 18 
<212> ADN 

<213> Homo sapiens 



<210> 67 

<211> 20 

<212> ADN 

<213> Homo sapiens 

<400> 67 

tgaatgttaa agggctctgg 20 

<210> 68 

<211> 19 
<212> ADN 

<213> Homo sapiens 



<210> 69 
<211> 19 
<212> ADN 

<213> Homo sapiens 

<400> 69 

ttggttctca gctccggca 19 

<210> 70 
<211> 19 
<212> ADN 

<213> Homo sapiens 



<400> 66 

tcgatgcgag ctgaagca 



18 



<400> 68 

ttggttctca gctccggcg 



19 



<400> 70 

agaaaccggg ctggctgtg 



19 



<210> 71 

<211> 21 
<212> ADN 



<213> Homo sapiens 



35 



wo 01/72822 

<400> 71 

gcattgcctt ttgatctcta c 
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21 



<210> 72 

<21X> 18 
<212> ADN 

<213> Homo sapiens 
<400> 72 

tgggctcttc tgcgggga 18 

<210> 73 
<211> 18 
<212> ADN 

<213> Homo sapiens 



<210> 74 

<211> 20 

<212> ADN 

<213> Homo sapiens 

<400> 74 

tgcctcttct tctgccttcc 20 

<210> 75 
<211> 22 
<212> ADN 

<213> Homo sapiens 



<210> 76 

<211> 24 

<212> ADN 

<213> Homo sapiens 

<400> 76 

cctgagctgt acctgaggaa gcgc 24 

<210> 77 

<211> 20 

<212> ADN 

<213> Homo sapiens 

<400> 77 

catcatgagc ccggggtggc 20 

<210> 78 
<211> 23 
<212> ADN 



<400> 73 

tgggctcttc tgcggggg 



18 



<400> 75 

cgagctgtac ctgaggaagc gt 



22 
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<400> 78 

tttctcttgg cttcctggtg cgt 



23 



<210> 79 
<211> 25 
<212> ADN 

<213> Homo sapiens 
<400> 79 

accttctctt ggcttcctgg tgcgg 25 



<210> 80 
<211> 26 
<212> ADN 

<213> Homo sapiens 



<210> 81 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 81 

atctgagaag gccctgctct 20 



<210> 82 
<211> 20 
<212> ADN 

<213> Homo sapiens 



<210> 83 
<211> 19 
<212> ADN 

<213> Homo sapiens 
<400> 83 

cccacactta gccttgatg 19 



<210> 84 

<211> 19 

<212> ADN 

<213> Homo sapiens 



<400> 80 

gccaaaggtg tcgtgccagg gctcca 



26 



<400> 82 

atctgagaag gccctgctcc 



20 



<400> 84 

atgagttagc ccagcggag 



19 



<210> 85 
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<211> 19 
<212> ADN 

<213> Homo sapiens 



<400> 85 

attgagagcc cttggagtg 



19 



<210> 86 
<211> 19 
<212> ADN 

<213> Homo sapiens 
<400> 86 

tgatttcgta agacaagtg 19 

<210> 87 
<211> 20 
<212> ADN 

<213> Homo sapiens 



<210> 88 
<211> 19 
<212> ADN 

<213> Homo sapiens 
<400> 88 

agctgagatg tccggatcg 19 

<210> 89 
<211> 18 
<212> ADN 

<213> Homo sapiens 



<210> 90 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 90 

gtcctcttaa cttcccttcc 20 



<400> 87 

agcaaattct aggagttatg 



20 



<400> 89 

agctgagatt ccggatca 



18 



38 



